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这 是 一 本 从 肉 入 式 系统 角度 探索 计算 机 硬件 与 软件 原理 的 教科 书 。 本 书 逐 步 揭 示 了 在 现实 世界 
中 如 何 运用 基本 概念 构建 从 小 型 能 入 式 设备 到 大 型 计算 机 集群 的 计算 机 系统 ， 以 及 这 些 概念 是 如 何 
通过 互联 网 在 全 球 范围 内 相互 关联 的 。 本 书 首先 完整 地 阐述 主要 的 硬件 组 件 ， 包 括 处 理 器 、 内 存 、 
存储 设备 与 性 能 加 速 器 ， 接 着 又 充分 探讨 操作 系统 、 连 接 以 及 网 络 。 通 过 本 书 ， 读 者 将 了 解 计算 机 
硬件 和 软件 是 如 何 协 同 工 作 来 支持 泛 在 计算 、 物 联网 、 移 动 计算 和 大 小 不 一 的 各 种 应 用 程序 的 。 


本 书 洒 盖 的 主要 内 容 
@ 计算 机 基础 @ 编程 
@ CPU 基础 @ 操作 系统 
@@ 处 理 器 内 部 结构 @ 连接 
@ CPU 性 能 增强 @ 网 络 
@ 外 部 硬件 和 外 围 设备 @ 肉 入 式 计 算 系 统 的 未 来 
多 实际 舱 入 式 CPU 
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文艺 复兴 以 来 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规范 ， 使 西方 国家 在 自然 科学 的 各 
个 领域 取得 了 垄断 性 的 优势 ， 也 正 是 这 样 的 优势 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 家 非 
出 、 独 领 风骚 。 在 商业 化 的 进程 中 ,美国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 学 科 中 
的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ， 不 仅 璧 划 了 研究 
的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 因 年 月 的 流 
逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 益 
人 迫切。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 上 显 
得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国家 在 其 计算 机 科学 发 展 的 
几 十 年 间 积淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计算 机 教材 
将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 的 世界 一 流 
大 学 的 必由之路 。 

机 械 工 业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ”。 自 1998 年 开始 ， 我们 就 
将 工作 重点 放 在 了 遂 选 、 移 译 国外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson、 
McGraw-Hill 、Elsevier、MIT 、John Wiley & Sons 、Cengage 等 世界 著名 出 版 公司 建立 了 良好 的 
合作 关系 ， 从 它们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum 、Bjarne Stroustrup 、Brian 
W. Kernighan、 Dennis Ritchie、 Jim Gray、 Afred V. Aho、 John E. Hopcroft、 Jeffrey D. Ullman 、 
Abraham Silberschatz、 William Stallings 、Donald E. Knuth、John L. Hennessy、Larry L. Peterson 等 
大 师 名 家 的 一 批 经 典 作 品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 究 及 珍藏 。 
大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 相助 ， 国 内 的 专家 不 仅 提 供 了 中 
肯 的 选 题 指导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 在 中 
国 的 传播 ， 有 的 还 专门 为 其 书 的 中 译本 作 序 。 迄 今 , “计算 机 科学 丛书” 已 经 出 版 了 近 500 个 
品种 ， 这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书籍 。 其 影 
印 版 “经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 图 
书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完善 和 教材 改革 的 逐渐 深化 ， 
教育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽善尽美 ， 而 反 
馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公 司 欢迎 老师 和 读者 对 我 们 的 工作 提出 
建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 

华章 网 站 : www. hzbook. com 

电子 邮件 : hzjsj@ hzbook. com 

联系 电话 : (010) 88379604 es 

联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 华章 教育 

邮政 编码 ; 100037 华章 科技 图 书 出 版 中 心 
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人 工 智能 与 智能 硬件 离 我 们 的 生活 越 来 越 近 了 ， 我 们 在 日 常生 活 的 方方面面 都 能 感受 到 这 
些 技术 带 来 的 便利 ,然而 这 些 对 我 们 的 生活 产生 潜移默化 影响 的 科技 还 是 需要 以 计算 机 为 载 
体 。 目 前 国内 很 多 学 生 受 就 业 热潮 的 影响 选择 计算 机 专业 ,但 大 多 偏向 于 应 用 算法 的 研究 ， 对 
计算 机 系统 的 基础 理论 重视 不 够 ， 这 在 一 定 程度 上 阻碍 了 计算 机 事业 的 发 展 。 本 书 是 一 本 对 计 
算 机 系统 解读 、 梳 理 得 比较 透彻 的 书籍 。 伊 恩 ' 文 斯 ， 麦克 洛克 林 教 授 是 英国 查 塔 姆 肯特 大 学 
梅 德 韦 校 区 现任 计算 机 学 院 院 长 、 计 算 机 教授 ,还 是 正 T 的 成 员 、IEEE 高 级 会 员 、 英 国 的 特 
许 工程 师 和 欧洲 (欧盟 ) 工程 师 ,， 在 计算 机 系统 ， 尤 其 是 嵌入 式 技术 应 用 方面 颇 有 建树 ， 同 
时 还 有 丰富 的 工程 经 验 。 本 书 内 容 由 浅 入 深 ， 既 有 对 计算 机 系统 软 硬 件 基础 详细 的 人 门 介绍 ， 
又 有 结合 实际 应 用 ， 对 艇 人 式 系统 技术 存在 的 瓶颈 的 深入 探讨 ， 适 合作 为 计算 机 及 相关 专业 本 
科 生 的 教材 或 教学 参考 书 ， 同 时 适合 其 他 热爱 计算 机 科学 技术 ， 和 希望 进一步 提升 自己 的 计算 机 
基础 和 能 力 的 读者 阅读 参考 ， 甚 至 对 于 工作 在 从 入 式 系统 产业 的 工程 师 来 说 ， 本 书 也 是 一 本 不 
错 的 参考 书 。 

本 书 将 计算 机 技术 的 发 展 背 景 与 基础 知识 作为 切入 点 ， 以 租 入 式 系统 的 方向 为 特色 ,涉及 
计算 机 系统 内 部 包含 的 硬件 、 软 件 编程 与 操作 系统 、 连 接 性 与 网 络 系统 。 硬 件 部 分 结合 嵌入 式 
系统 与 实际 应 用 对 CPU 的 功能 、 内 部 组 成 单元 以 及 计算 机 接口 进行 详细 介绍 。 软 件 部 分 包括 
程序 设计 、 工 作 原理 以 及 操作 系统 。 连 接 性 与 网 络 系统 部 分 介绍 计算 机 网 络 发 展 至 今 的 拓扑 与 
连接 方法 〈 网 络 协议 等 ) 。 最 终 以 对 计算 机 系统 的 未 来 展望 作为 结尾 。 纵 观 全 书 ， 作 者 用 通俗 
易 介 的 语言 将 嵌入 式 开发 设计 流程 与 核心 技术 进行 了 详细 介绍 。 与 其 他 高 等 教育 专业 教科 书 不 
同 ， 作 者 的 氢 述 风格 该 谐 幽 默 ， 并 且 结合 了 实际 应 用 案例 ， 十 分 便于 读者 理解 ， 字 里 行 间 可 以 
感受 到 作者 极 高 的 写作 热情 、 深 厚 的 学 术 背 景 与 丰富 的 能 入 式 系统 开发 经 验 。 

当 朱 捷 编 辑 将 这 本 教材 推荐 给 我 ， 并 邀请 我 作为 中 文 版 的 译 者 时 ， 我 还 是 心怀 敬 旦 的 ， 日 
常 科研 教学 工作 任务 繁重 ， 自 己 是 否 能 再 接 下 这 本 书 的 翻译 工作 ? 通过 对 原著 的 阅读 以 及 与 纺 
辑 的 沟通 ， 我 认为 本 书 是 基于 仍 人 式 系统 架构 讨论 计算 机 体系 的 一 本 好 书 ， 值 得 推荐 给 我 们 的 
学 生 和 艇 人 式 系 统 的 从 业 工 程 师 。 在 翻译 过 程 中 力争 既 要 忠实 于 原著 ， 又 要 尊重 中 文 的 表达 方 
式 ， 尤 其 要 将 英文 中 的 幽默 语气 用 中 文 表达 方式 传达 给 读者 ， 实 践 起 来 也 颇 为 不 易 。 在 这 里 要 
感谢 我 的 同事 徐 国 诸 老师 ， 他 对 “嵌入 式 原理 ”这 门 课 程 教学 的 一 些 需求 及 对 原著 的 肯定 促 
使 我 下 决心 开始 翻译 本 书 。 我 的 学 生 程 倩 倩 、 莫 耀 凯 、 隋 钰 童 、 王 博 斐 、 贾 铭 杰 分 担 了 许多 协 
助 翻译 、 查 找 资料 及 校对 工作 。 他 们 的 付出 与 努力 是 整个 翻译 工作 能 够 顺利 完成 的 强 有 力 的 保 
障 ! 同时 也 感谢 朱 捷 编辑 在 整个 过 程 中 的 耐心 指导 和 悉心 审阅 。 

本 书 的 翻译 工作 历时 近 7 个 月 ， 每 章 译 稿 都 经 过 至 少 两 个 人 的 多 遍 校 阅 。 作 为 译 者 ， 我 们 
努力 保证 译本 的 准确 、 易 读 ， 但 由 于 时 间 紧 、 任 务 急 ， 译 作 之 中 难免 存在 下 漏 之 处 ， 奶 请 各 位 
同行 及 广大 读者 批评 指正 。 和 希望 我 们 努力 的 结果 能 够 使 读者 满意 ， 同 时 也 希望 本 书 中 文 版 的 出 
版 能 为 戏 入 式 系 统 技术 在 中 国 的 发 展 贡献 力量 。 
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智能 手机 、 便 携 式 游戏 设备 等 都 是 广义 上 的 计算 机 ,它们 在 人 们 的 日 常生 活 中 正 变 得 越 来 
越 重 要 。 本 书 致力 于 从 多 个 层面 理解 这 些 系 统 ， 让 读者 明白 是 什么 使 其 成 为 计算 机 ， 并 强调 它 
ee ert tet ee 审视 在 入 式 系统 的 内 
部 ， 对 于 一 个 有 技术 头脑 的 人 来 说 ， 就 像 打 开 了 一 个 充满 知识 的 圣诞 礼物 。 

书店 《特别 时 大 学 六 并 的 书店) 晶 关 于 这 沾 这 的 并 科 书 亿 浊 隐 处 而 见 ， 比 如 计 汪 杭 和 
系 结构 、 计 算 机 系统 设计 、 网 络 、 操 作 系统 ， 甚 至 是 嵌入 式 系统 。 许 多 著名 的 技术 作者 也 都 学 
试 过 在 这 个 领域 写作 ， 但 计算 机 是 一 个 不 断 发 展 的 技术 领域 ， 很 难 用 会 很 快 过 时 的 静态 教科 书 
充分 地 描述 。 特 别 是 在 过 去 十 年 ， 嵌 入 式 计 算 系 统 的 兴起 让 一 些 思维 保守 的 作者 感到 惊讶 : 在 
20 世纪 五 六 十 年 代 的 一 些 教科 书 中 ， 人 们 坚持 将 计算 机 视 为 房间 大 小 的 机 器 ，20 世纪 八 九 十 
年 代 的 教科 书 将 计算 机 视 为 台式 和 服务 器 计算 机 ， 只 有 少数 作者 真正 认为 未 来 使 用 的 绝 大 多 数 
计算 机 都 是 戏 和 在 日 常 物品 中 的 ， 认 为 计算 机 在 未 来 是 嵌入 式 的 、 互 通 的 和 无 处 不 在 的 。 在 未 
来 ， 台 式 机 甚至 笔记 本 电脑 将 会 像 50 年 前 的 打 孔 机 一 样 不 合 时 宜 。 

本 书 中 的 讨论 尽 可 能 直接 面向 嵌入 式 ， 并 使 用 来 自 嵌 入 式 世 界 的 例子 ， 这 些 例子 适用 于 计 
算 机 体系 结构 、 操 作 系 统 和 连接 这 三 个 子 领域 。 有些 主题 与 租 入 式 处 理 器 有 更 紧密 的 联系 ， 其 
他 的 可 能 是 更 传统 的 主题 。 这 里 将 尽 可 能 给 出 嵌入 式 领 域 的 一 些 例 子 ， 以 及 可 以 描述 章节 主题 
与 读者 的 联系 的 相关 资料 。 


全 书 结构 

本 书 由 12 章 构 成 ， 除 了 第 1、2 章 的 介绍 与 第 12 章 的 总 结 部 分 之 外 ， 其 他 章节 可 以 粗略 
分 为 三 个 部 分 ， 依 次 解决 以 下 三 个 问题 : 

。 现代 计算 机 系统 ( 幅 入 式 或 其 他 系统 ) 所 用 的 内 部 硬件 ， 其 工作 原理 以 及 协同 方法 。 

。 在 使 用 计算 机 编程 实现 功能 时 需要 怎么 做 ?软件 如 何 被 写 入 、 加 载 并 执行 ? 如 何 系统 

化 并 呈现 给 用 户 ? 现代 计算 机 内 部 的 系统 如 何 管理 ? 

。 计算 机 之 间 如 何 通过 连接 来 交换 信息 并 为 用 户 提供 分 布 式 服务 ? 

总 的 来 说 ， 在 “引言 ”和 “基础 知识 ”章节 之 后 ， 第 3 ~7 章 会 讨论 硬件 ， 相 关 的 软件 编 
程 和 操作 系统 知识 将 在 第 8 章 和 第 9 章 介绍 ， 连 接 性 和 网 络 系统 的 内 容 在 第 10 章 和 11 章 介 绍 。 
本 书 各 部 分 之 间 紧 密 联 系 ,但 是 读者 不 必 按 顺序 学 3 
绍 ， 非 常 通俗 易 懂 。 
适用 读者 

本 书 适 用 于 计算 机 、 计 算 机 科学 、 计 算 机 工程 、 计 算 机 系统 工程 、 电 子 与 计算 机 工程 、 电 
子 与 电气 工程 等 专业 的 本 科 生 。 对 于 工作 在 其 他 技术 领域 的 人 来 说 ， 如 果 对 学 习 计算 机 基础 有 
兴趣 ， 本 书 也 是 不 错 的 选择 。 引言 与 基础 知识 部 分 适合 本 科 生 前 两 年 学 习 ， 本 书 还 有 足够 的 深 
度 与 拓展 部 分 ， 适合 学 习 计 算 机 架构 或 计算 机 系统 设计 的 大 四 学 生 阅 读 。 


对 于 从 事 艇 入 式 系统 相关 工作 的 程序 员 与 工程 师 来 说 ， 本 书 是 十 分 有 用 的 参考 。 本 书 对 各 
个 行业 都 十 分 适用 的 ARM 处 理 器 的 重点 介绍 一 定 会 受到 业内 人 士 的 欢迎 。 








本 书 设计 

本 书 的 内 容 是 自 下 而 上 编写 的 ， 除了 本 书 的 硬件 和 计算 机 体系 结构 章节 的 某 些 部 分 以 我 以 
前 的 作品 《计算 机 体系 结构 : 家 入 式 方法 》 ( Computer Architecture: An Embedded Approach) 为 
基础 以 外 ， 其 他 部 分 并 没有 借鉴 现 有 的 任何 教科 书 。 我 采用 了 一 种 新 的 方法 ， 并 在 不 受 传统 结 
构 约 束 的 情况 下 规划 本 书 ， 避 开 了 计算 机 进化 过 程 中 出 现 的 “死胡同 ”以 及 一 些 不 相关 的 问 
题 。 这 让 读者 的 思路 更 加 清晰 ， 可 以 将 注意 力 集中 在 仍 人 式 系 统 上 (本 书 没有 完全 略 去 大 型 机 
器 ， 因 为 它们 包含 了 多 年 来 已 普及 的 更 重要 上 且 更 好 的 技术 演变 的 优秀 例子 ) 。 

在 创作 本 书 的 过 程 中 ,我 的 目的 是 通过 编写 简单 易 懂 的 文字 来 培养 读者 的 兴趣 ， 并 努力 保 
持 本 书 与 影响 日 常生 活 的 流行 前 沿 技术 的 相关 性 。 然 而 ， 在 任何 研究 领域 都 存在 一 些 棘 手 的 概 
念 ， 遇 到 这 些 概念 时 ， 我 会 写 出 明确 的 解释 性 文字 ， 同 时 在 许多 地 方 提 供 了 充分 而 直观 的 说 明 
来 帮助 读者 理解 。 此 外 ， 本 书 还 提供 了 许多 解释 框 ， 这 些 解释 框 包含 了 额外 的 示例 、 有 趣 的 信 
息 和 其 他 解释 之 类 的 材料 ， 目 的 是 扩充 正文 内 容 并 帮助 读者 吸收 知识 。 

本 书 使 用 SI (国际 单位 制 )， 包括 新 的 计算 机 存储 度量 单位 kibibyte 和 mebibyte (附录 A 
中 对 此 进行 了 解释 )。 本 书 的 主要 章节 附 有 思考 题 。° 


本 书 的 编写 
书 中 的 示例 代码 和 大 多 数 嵌 入 式 系统 描述 源 自 作者 的 硬件 和 软件 设计 经 验 。 非常 感 谢 
GNU 项 目 中 出 色 的 CCC ARM 编译 器 ， 以 及 Busybox 〈 艇 和 人 式 系统 编码 的 “瑞士 军刀 ") 和 
ARM / Linux 项 目 。 
本 书 中 的 一 些 图 像 由 Wikimedia Commons 等 在 线 资源 提供 ， 均 在 图 题 中 有 所 标注 。 这 些 图 
像 均 有 知识 共享 (CC) 归属 (BY) 许可 或 共享 (SA) 许可 。 特 别 要 感谢 Wikimedia Commons 
提供 了 优秀 资源 以 及 Creative Commons “提供 了 保护 许可 证 。 


开始 之 前 

我 们 应 该 铭记 数 十 年 来 辛勤 工作 的 计算 机 工程 师 们 ， 他 们 为 现代 社会 的 移动 电话 、 智 能 
机 、 计 算 机 和 纶 和 人 式 技术 的 蓬勃 发 展 注 人 了 重要 的 力量 。 我 们 赞扬 过 去 那些 伟大 的 贡献 ， 并 希 
望 读 者 能 够 畅游 在 嵌 人 式 计 算 机 系统 知识 的 海洋 里 ， 努 力 建设 更 美好 的 科技 未 来 。 


Ian Vince McLoughlin 





加 ”关于 本 书 教 辅 资源 ， 只 有 使 用 本 书 作为 教材 的 教师 才 可 以 申请 ， 需 要 的 教师 可 向 麦 格 劳 - 希 尔 教育 出 版 公 
司 北京 代表 处 申请 ， 电 话 010- 57997618/7600， 传 真 010- 59575582， 电 子 邮 件 instructorchina @ mheduca- 
tion. com。 编辑 注 

回 可 以 在 https:/Ncreativecommons. org/licenses 上 查看 本 书 中 所 使 用 的 CC 图 像 的 完整 许可 文件 。 
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在 此 特别 感谢 我 耐心 的 妻子 Kwai Yoke、 可 爱 的 孩子 Wesley 和 Vanessa， 他 们 给 了 我 充足 的 
时 间 撰 写 此 书 。 而 纽约 的 MeGraw- Hill 教育 的 所 有 编辑 和 制作 人 员 ， 则 在 我 需要 的 时 候 给 了 我 
很 多 鼓励 ， 他 们 的 专业 精神 促成 了 本 书 的 出 版 。 同 时 ， 也 感谢 Gerald Bok 和 其 他 在 新 加 坡 
McGraw- Hil 亚洲 团队 工作 的 人 ， 特 别 是 Gerald 在 2006 ~ 2013 年 对 我 写作 生涯 的 支持 。 

我 还 要 在 此 感谢 很 多 朋友 的 支持 和 鼓励 ， 但 我 更 想 把 这 份 成 果 献 给 我 的 母亲 ， 不 仅仅 是 在 
写 这 本 书 时 ， 更 是 在 我 的 整个 生命 历程 中 ， 是 她 始终 鼓励 着 我 ， 不 离 不 弃 ， 风 雨 相 随 。 正 是 她 
对 我 的 急切 期 望 ， 使 我 最 终 走 上 科学 研究 的 道路 ， 而 她 也 始终 以 最 饱满 的 热情 来 关注 我 对 于 写 
作 的 尝试 。 
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1.1 计算 机 的 进化 

计算 机 进化 经 历 了 一 个 漫长 的 历程 : 从 1834 年 Charles Babbage 的 差分 机 〈 见 图 1-1， 它 与 
后 来 的 数学 计算 处 理 机 具有 类 似 设计 ) 到 今天 的 超级 计算 机 ， 是 一 段 为 提高 处 理 能 力 、 复 杂 性 
和 微型 化 而 不 懈 努 力 的 佳话 。 

令 人 吃惊 的 是 ，Babbage 当年 的 很 多 技术 (以 
及 20 世纪 40 年 代 的 早期 电子 计算 机 ) 非常 具有 前 
脆性 ， 在 当今 计算 机 系统 中 依然 随处 可 见 。 这 显示 
了 早期 的 开拓 者 惊人 的 远见 ， 同 时 也 证 明了 一 些 
基本 的 运作 和 结构 几乎 在 所 有 类 型 的 计算 机 中 都 
是 通用 的 ， 不 分 年 代 。 今 天 我 们 有 机 会 在 事后 通过 
计算 发 展 的 历史 进行 反思 ， 从 而 可 以 发 现 许 多 生 
命 周 期 不 长 的 进化 分 支 ， 这 些 分 支 最 初 看 上 去 很 
有 前 途 ， 但 很 快 失去 了 生命 力 。 它 们 当中 有 些 可 能 
会 在 后 来 的 一 些 专门 化 机 器 中 重新 出 现 ， 但 更 多 
的 仅仅 成 了 一 段 历史 。 

未 来 的 计算 机 很 有 可 能 会 建立 在 当前 所 用 的 
技术 之 上 。 当 前 技术 的 快照 (正如 所 有 计算 机 教 
科 书 所 必须 做 的 ) 要 如 实 反映 这 个 事实 ， 而 不 能 
脱离 历史 地 介绍 技术 。 Pe - 

本 书 将 按照 技术 进化 过 程 展开 。 前 面 几 章 重 点 图 1-1 ”Babbage 的 差分 机 的 一 部 分 , 来 





描述 计算 机 基础 。 掌 握 这 些 基础 能 使 学 生 们 在 纸 面 源 于 Harper 的 月 刊 杂志 第 30 卷 ， 
上 构造 出 可 工作 但 效率 低 的 计算 机 。 之 后 的 章节 将 第 175 期 ，p34，1864 年 。 在 从 
描述 当今 体系 结构 在 提高 性 能 方面 的 先进 技术 。 我 eR 


们 将 这 些 先进 技术 与 计算 机 基础 分 开讲 述 ， 原 因 和 
在 于 它们 当中 有 些 可 能 是 进化 过 程 中 的 “死胡同 ” ， 仅 在 当今 推动 Moore 定律 > 快速 向 前 。 

在 计算 机 体系 结构 方面 最 终 会 出 现 革命 性 的 变化 一 它 将 打破 进化 趋势 ， 使 得 许多 曾经 有 助 
于 提高 性 能 的 技术 被 遗忘 。 本 书 中 不 能 确定 这 些 技术 是 什么 ， 但 可 以 做 一 些 非 正式 的 猜测 。 在 本 
书 的 最 后 一 章 ， 我 们 将 讨论 在 未 来 几 十 年 可 能 带 来 革命 性 变化 的 先进 技术 。 虽 然 我 们 不 能 确定 未 
来 会 出 现 哪些 颠覆 性 的 技术 ， 但 是 可 以 明确 过 去 和 现在 的 计算 机 在 性 能 方面 的 提升 。 最 重要 的 
是 ， 可 以 理解 驱动 架构 师 、 计 算 机 系统 设计 者 、 软 件 开发 人 员 、 网 络 工程 师 在 从 事 的 工作 。 


1.2 进化 过 程 
计算 机 的 发 展 遵循 着 不 断 提升 的 进化 路 线 。 其 中 颠覆 性 的 突破 虽然 很 罕见 ， 但 一 直 备 受 欢 





加 ”英特尔 的 工程 师 戈 登 . 摩尔 〈Gordon Moore) 在 1965 年 指出 ， 唱 体 管 密度 (以 及 因此 导致 的 计算 机 复杂 度 ) 
正 以 指数 级 的 速度 增长 。 他 预测 ， 这 种 增 速 将 在 未 来 持续 下 去 ， 而 这 一 想法 随后 被 称 为 摩尔 定律 。 
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迎 。 近 些 年 来 ， 计 算 机 领域 都 在 小 幅 提升 。 

当然 ， 像 计算 机 这 样 复杂 的 设备 需要 由 有 才华 的 工程 师 来 设计 。 我 们 能 够 记得 一 些 工程 师 
的 名 字 ， 尤 其 是 那些 做 出 重大 改进 的 人 〈 其 中 有 些 人 还 在 世 ) 。 另 外 ,那些 开创 性 机 器 的 设计 
和 历史 往往 付出 了 巨大 代价 ， 应 当 被 很 好 地 记录 下 来 。 

因此 ， 人 们 往往 希望 计算 机 的 发 展 历 史 是 清晰 定义 的 ， 对 半 个 世纪 以 来 出 现 的 那些 开创 性 
计算 机 的 认识 没有 困惑 和 争议 。 但 遗憾 的 是 实际 情况 并 不 是 这 样 : 存在 着 非常 不 同 的 意见 ， 关 
于 准确 的 时 间 、 贡 献 、“ 第 一 ”等 几乎 没有 一 致意 见 。 任 意 比 较 两 本 关于 计算 体系 结构 或 计算 
机 历史 的 书 就 会 发 现 这 一 点 。 出 于 本 书目 的 ， 我们 将 从 巨人 Colossus 开始 展现 计算 机 历史 。 

Colossus (如 图 1-2 所 示 ) 由 工程 师 Tommy Flower 于 1943 年 制造 ， 由 Alan Turing 及 其 在 
Bletchley Park 的 同事 完成 程序 设计 ， 目 前 普遍 认为 这 是 世界 上 第 一 台 可 编程 电子 计算 机 。 这 人 台 计 
算 机 作为 针对 德国 Enigma 编码 的 密码 破译 工程 (最终 成 功 ) 的 一 部 分 ， 于 第 二 次 世界 大 战 中 构 
建 于 英国 。 遗 憾 的 是 ，Colossus 因 属 于 英国 官方 保密 法 之 列 而 被 隐藏 了 整整 50 年 。 战 后 ， 首 相 
Winston Churchill (以 典型 的 保密 文件 的 形式 ) 命令 将 这 人 台 机 器 拆 分 成 不 大 于 人 和 手 的 碎片 ， 同 时 
命令 销毁 所 有 与 Colossus 相关 的 文章 。 规 划 和 图 纸 由 设计 者 焚烧 ， 解密 操 作 员 宣誓 保 守 秘密 。 





图 1-2 照片 1945 年 拍摄 于 Bletchley Park 的 H 区 ， 是 当时 使 用 的 十 台 Colossus 计算 机 之 一 。 
国家 计算 机 博物 馆 的 洛 仑 效 密码 机 现在 存放 在 这 里 (图片 由 英国 档案 馆 提供 ) 


这 台 机 器 被 隐藏 得 很 成 功 。 尽 管 偶 尔 有 一 些 关 于 这 台 机 器 的 传闻 ,但 公众 最 终 是 在 2000 
年 所 剩 无 几 的 几 份 相关 文件 被 解密 时 才 得 知 Colossus 的 存在 。 因 此 ， 在 很 多 计算 机 历史 的 相关 
描述 中 都 没有 提 到 Colossus ， 整 整 一 代 计 算 机 设计 师 从 来 没有 听 说 过 它 。 

然而 ， 另 有 一 些 著名 的 与 Colossus 同期 的 机 器 在 之 后 几 年 开始 使 用 。 其 中 最 著名 的 ENIAC 
(Electronic Numerical Integrator And Computer) 在 美国 制造 。 当 Colossus 还 在 被 完全 隐藏 时 ， 
1944 年 开始 投入 使 用 的 ENIAC 显然 成 为 世界 上 第 一 台数 字 计 算 设备 。 许 多 不 知道 Colossus 的 
教科 书 作者 将 ENIAC 作为 第 一 台 现 代 计 算 机 。 事 实 上 ，Colossus 不 仅 投入 使 用 的 时 间 更 早 ， 而 
且 与 现代 计算 机 相似 ， 是 一 台 二 进 制 计算 机 ， 而 ENIAC 是 一 台 十 进 制 计 算 机 。 但 Colossus 和 
ENIAC 一 样 都 很 难 编程 ， 需 要 通过 调整 开关 和 变换 连 线 位 置 实现 重新 编程 。 

令 人 惊叹 的 是 ， 出 现在 一 个 世纪 之 前 的 Charles Babbage 的 差分 机 是 数字 的 而 不 是 模拟 的 ， 
且 完 全 可 编程 ， 比 起 那些 被 称 为 第 一 的 电子 计算 机 在 某 些 方面 更 为 先进 。Babbage 还 设计 了 一 
台 打印 机 外 设 ， 可 以 输出 数字 计算 结果 。Babbage 的 机 器 还 具有 完整 的 程序 设计 语言 ， 能 够 处 
理 循环 和 条 件 分 支 ， 这 使 得 Babbage 的 朋友 Lovelace 伯 事 夫人 Ada Byron 〈 著 名 诗人 和 拜 伦 的 女 
儿 ) 在 这 人 台 计 算 机 上 工作 并 写 出 了 世界 上 第 一 个 计算 机 程序 。 这 可 能 是 历史 上 诗歌 创作 和 编程 
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第 一 次 也 是 最 后 一 次 走 到 一 起 。 

在 差分 机 和 Colossus 之 间 ， 计 算 领 域 并 不 完全 是 荒漠 : 德国 人 Konrad Zuse 在 1940 ~ 1941 
年 间 构建 了 一 台电 力 计 算 机 ， 归 类 为 电力 而 不 是 电子 计算 机 的 原因 是 它 基于 继电器 建造 而 成 。 
另 一 个 电子 计算 机 的 早期 尝试 是 1941 年 在 美国 爱 荷 华 州立 大 学 (Iwoa State College) 构建 的 
Atanasoff- Berry 机 器 。 虽 然 这 人 台 机 器 不 可 编程 且 不 可 靠 ， 但 它 还 是 展示 出 一 些 现代 计算 机 的 概 
念 ， 并 且 毫 无 疑问 地 推动 了 当时 计算 领域 的 发 展 。 

晶体 管 计算 机 的 起 源 同样 是 一 个 令 人 困惑 的 领域 。 美 国 贝 尔 实验 室 于 1948 年 发 明了 晶体 
管 ， 因 为 功 耗 低 、 尺 寸 小 ， 它 很 适合 构建 计算 机 (虽然 早期 晶体 管 的 可 靠 性 低 于 电子 管 ?)。 
有 一 些 文字 记载 误 将 美国 麻 省 理工 学 院 于 1956 年 制造 的 TX-0 作为 第 一 台 晶 体 管 计算 机 ， 实 际 
上 曼彻斯特 大 学 于 1953 年 投入 运行 的 晶体 管 计算 机 才 应 该 享有 “第 一 ”的 荣誉 。 

到 目前 为 止 ， 提 到 的 大 多 数 机 器 都 是 通过 拨 动 开关 或 手动 插 拔 电线 来 “编程 ”的 。 从 这 
种 意义 上 说 ， 它 们 是 可 编程 的 ， 但 是 速度 很 慢 。 相 反 ， 现 代 计 算 机 将 程序 存储 在 内 存 中 ， 这 可 
能 更 易于 编程 和 调试 。 第 一 台 存 储 程序 的 计算 机 是 曼彻斯特 大 学 构建 的 小 型 试验 机 器 (SSEM ， 
或 爱 称 ”Baby”) 。 它 于 1948 年 首次 成 功 地 运行 了 所 存储 的 程序 。 另 一 个 早期 的 存储 程序 计算 
机 是 Maurice Wilkes 的 EDSAC (Electronic Delay Storage Automatic Calculator) ， 于 1949 年 5 月 在 
剑桥 大 学 开始 运行 。 同 样 著 名 的 还 有 美国 陆军 的 EDVAC (Electronic Discrete Variable Automatic 
Computer) ， 它 也 是 二 进 制 存 储 程序 计算 机 ， 始 建 于 1944 年 , 但 直到 1951 ~ 1952 年 才 开始 
运行 。 

显然 ， 早期 的 计算 机 要 么 是 大 学 制造 的 ， 要么 在 某 种 程度 上 与 军事 计算 有 关 〈 例 如 洛 仑 兹 
密码 机 和 EDVAC)。 曼 彻 斯 特大 学 是 一 个 非常 重要 但 是 很 低调 的 角色 ， 被 很 多 计算 机 历史 学 家 
忽视 了 。 在 前 者 中 ， 曼 彻 斯 特大 学 于 1951 年 还 设计 出 世界 上 第 一 台 商 用 计算 机 Ferranti Mark 
1， 紧 随 其 后 的 是 由 EDSAC 衍生 的 LE0。 这 台 计 算 机 从 1951 年 春天 开始 为 Lyons Tea Houses 运 
行 财务 程序 。 尽 管 早期 计算 机 业务 是 以 英国 为 中 心 ， 但 在 接 下 来 的 半 个 世纪 里 ， 最 大 和 最 重要 
的 商业 计算 机 企业 坐落 在 美国 。 这 种 情况 一 直 持 续 到 艇 人 式 系统 出 现 。 随 着 剑桥 开发 的 ARM 
处 理 器 的 广泛 使 用 ， 至 少 在 一 段 时 间 内 ， 这 种 发 展 把 钟 摆 摆 回 了 英国 。 而 在 2016 年 9 月 ， 
ARM 被 卖 给 了 日 本 SoftBank 公司 。 

表 1-1 列 出 了 计算 机 领域 的 世界 第 一 ， 同 时 给 出 了 它们 实际 开始 运行 的 年 代 。 


表 1-1 计算 机 发 展 史 上 重要 的 计算 机 


























年 份 研发 地 点 名 称 首次 产品 
1834 剑桥 大 学 差分 机 可 编程 计算 机 

1943 Bletchley Colossus 电子 计算 机 

1948 曼彻斯特 大 学 SSEM (Baby) 存储 程序 计算 机 

1951 麻 省 理工 学 院 Whirlwind 1 实时 IO 计算 机 

1953 曼彻斯特 大 学 晶体 管 计 算 机 晶体 管 计算 机 

1971 加 利 福 尼 亚 Intel 4004 CPU 大 众 市 场 CPU & IC 
1979 剑桥 大 学 Sinclair ZX-79 大 众 市 场 家 用 计算 机 
1981 纽约 IBM PC 个 人 计算 机 

1987 剑桥 大 学 基于 ARM 的 Acorm A400 系列 拥有 RISC CPU 的 家 用 计算 机 
1990 纽约 IBM RS6000 CPU 超标 量 RISC 处 理 器 
1998 加 利 福 尼 亚 Sun picoJAVA CPU 基于 一 种 语言 的 计算 机 





日 。 在 局 部 真空 中 包含 微小 灯丝 电极 的 玻璃 热 离子 阀门 是 大 部 分 早期 计算 机 的 基本 俱 辑 开关 。 在 北美 称 这 种 阔 
门 为 “真空管” 或 简单 称 为 “ 管 "。 有 趣 的 是 ， 虽然 它 们 现在 已 不 再 参与 计算 ,但 在 很 高 端的 音频 放大 设 
备 中 却 是 抢手 货 。 




















4 第 1 章 





该 表 展 示 了 计算 机 技术 的 发 展 过 程 。 尽 管 从 表 中 我 们 无 法 知道 20 世纪 60 年 代 在 这 一 领域 
发 生 了 什么 , 但 可 以 看 出 这 是 一 个 进化 过 程 ， 而 不 是 一 个 革命 性 过 程 。 


1.3 计算 机 发 展 阶段 划分 

有 些 时 候 计 算 机 像 人 一 样 按照 “ 代 ” 进 行 描述 。 这 是 一 种 按照 时 间 建 立 的 划分 ， 通 常 取 
决 于 建造 方法 、 计 算 逻 辑 器 件 ， 以 及 计算 机 用 途 等 要 素 。 

任何 看 过 20 世纪 80 年 代 计 算 机 杂志 上 的 广告 的 人 都 会 记得 制造 商 如 何 投资 不 同 代 的 计算 
机 ， 并 且 反 复 为 计算 机 新 产品 做 广告 ， 好 像 它 们 就 是 第 五 代 计 算 机 一 样 〈 尽 管 显 然 不 是 ) 。 几 
乎 每 台 计 算 机 都 配备 了 不 同 的 操作 系统 一 一 实际 上 硬件 和 操作 软件 都 存在 巨大 差异 ， 而 现在 只 
有 少数 操作 系统 (主要 是 Linux、Microsoft Windows、Mac 0S、Android) 和 计算 设备 商家 倾向 
于 销售 其 硬件 功能 。 虽 然 现 在 很 少 使 用 “计算 机 时 代 划 分 ”这 个 术语 ， 但 我 们 将 简要 回顾 五 
代 计 算 机 以 及 它们 的 特点 ， 并 给 出 一 些 例子 。 


1.3.1 第 一 代 计算 机 
基于 真空 管 ， 通 常会 占据 整个 房间 。 
MTBF (平均 故障 间隔 时 间 ) 很 得， 两 个 故障 之 间 间 隔 只 有 几 分 钟 。 
基于 十 进 制 的 算术 运算 。 
通过 开关 、 电 缆 或 硬 连 线 实现 编程 。 有 少量 可 编程 机 器 。 
除 基 本 的 机 器 码 之 外 没有 程序 设计 语言 。 
。 引入 了 冯 “' 谱 依 曼 体系 结构 。 
最 典型 的 例子 是 ENIAC， 耗 电 100kW 才能 达到 每 秒 500 个 加 法 运算 。 这 台 巨 大 的 机 器 使 用 
了 1800 个 真空 管 , 重 30 吨 ， 占 地 面积 为 1300 平方 米 。 用 户 界面 Ct 计 生机 的 其 刘 异 册 ) 
如 图 1-3 所 示 。ENIAC 由 美国 陆军 设计 ， 用 于 求解 弹道 方程 以 计算 火炮 射程 表 。 





图 1-3 两 名 女士 正在 操作 ENIAC 的 主 控制 盘 (图 片 由 美国 陆军 提供 ) 


Colossus 计算 机 同样 巨大 ， 早 期 用 于 解码 : 破解 强大 而 秘密 的 Enigma 编码 ， 为 第 二 次 世界 
大 战 中 盟 军 胜利 做 出 了 贡献 。 然 而 ， 令 人 伤心 的 是 ， 解 码 出 的 第 一 条 德军 信息 是 “我 们 正 准备 
麦 炸 Coventry”。 为 了 不 让 敌人 知道 信息 已 经 被 破解 ， 政 府 决 定 不 通知 居民 ， 致 使 很 多 居民 在 
这 次 友 炸 中 死亡 或 受伤 。 
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1.3.2 第 二 代 计算 机 


基于 品 体 管 ,但 还 是 很 重 、 很 大 。 
较 好 的 可 靠 性 。 
采用 二 进 制 逻 辑 。 
用 穿孔 卡片 或 纸 带 进行 程序 输入 。 
支持 早期 的 高 级 程序 设计 语言 。 

。 基于 总 线 的 系统 架构 。 

当时 的 CDC6000 被 誉 为 智能 外 围 设备 。 另 一 个 更 加 为 人 所 知 的 是 有 4KB RAM、 运 行 速率 
为 0.2MHz 的 PDP-1。 这 人 台 机 器 使 得 现今 已 经 倒闭 的 数字 设备 公司 (DEC) 在 当时 胜出 。PDP- 
1 标价 10 万 美元 左右 ， 且 有 令 人 印象 深刻 的 一 组 外 设 ， 包 括 光 笔 、EYEBALL 数字 照相 机 、 四 
声 道 音频 输出 、 电 话 接口 、 几 个 磁盘 存储 设备 、 打 印 机 、 键 盘 接口 和 控制 台 显示 设备 。 图 1-4 
展示 了 PDP-1 和 它 的 几 个 外 围 设 备 。 






图 1-4 Oslo PDP-7 (由 Tore Sinding Bekkedal 拍摄 ) 


1.3.3 第 三 代 计 算 机 


采用 集成 电路 。 
很 好 的 可 靠 性 。 
可 以 进行 仿真 〈 微 程序 ) 。 
多 道 程 序 设计 ， 多 任务 ， 分 时 。 
普遍 使 用 高 级 程序 设计 语言 ， 在 用 户 界 面 设计 方面 进行 了 一 些 尝试 。 
使 用 虚拟 存储 和 操作 系统 。 

最 为 人 所 知 且 功能 强大 的 IJBM System/360 包括 512KB 的 8 位 存储 器 ， 运 行 主 频 为 4MHz。 
这 是 一 个 基于 寄存 器 的 计算 机 ， 具 有 流水 线 中 央 处 理 单 元 (CPU) 体系 结构 和 存储 器 读 写 机 
制 ， 该 设计 方案 为 当今 程序 员 所 熟知 。IBM 在 基本 机 器 架构 基础 上 针对 不 同 的 用 户 要 求 进行 了 
相应 设计 ， 且 通过 微 码 仿真 方法 实现 其 他 指令 集合 ， 从 而 保证 为 第 二 代 计 算 机 用 户 (那些 已 经 
在 他 们 的 机 器 上 投入 巨额 资金 的 用 户 ) 提供 向 后 兼容 性 (因此 能 够 在 新 的 System/360 上 运行 
老 版 本 的 程序 ， 而 这 具有 很 大 的 商业 意义 。20 世纪 90 年 代 以 后 ，IBM 一 直 在 沿用 这 种 方法 )。 
经 过 修改 和 小 型 化 的 五 台 计算 机 在 NASA 空间 站 中 完成 数值 计算 。 

虽然 没有 占据 一 个 房间 ， 基 础 版 System/360 仍然 是 一 台 很 大 的 设备 ， 如 图 1-5 所 示 。 




















图 1-5 IBM System/360 (由 Ben Franske 拍摄 ， 来 源 于 Wikipedia IBM System/360 页 面 ) 


1.3.4 第 四 代 计算 机 

。 采用 超大 规模 (VLSI) 集成 电路 。 

。 高 可 靠 性 和 高 性 能 。 

。 可 以 将 整个 CPU 集成 到 一 块 芯片 上 。 

。 DOS、CP/M 及 更 先进 的 操作 系统 。 

。 这 就 是 今天 的 计算 机 。 

例子 非常 多 ,包括 所 有 台式 计算 机 和 笔记 本 计算 
机 。 图 1-6 显示 了 一 个 定制 的 RisePC 示例 。Acorn 的 
RiscPC (1994 一 2003) 是 该 公司 最 后 生产 的 计算 机 系 
列 之 一 ， 其 中 大 多 数 是 基于 他 们 自己 的 RISC 处 理 器 
( 称 为 ARM， 在 后 文中 仍 要 提 到 这 个 概念 ) 设计 的 。 
尽管 创建 了 当时 最 先进 的 窗口 操作 系统 以 及 新 的 处 理 
器 体系 结构 ，Acorn 还 是 在 发 布 RiscPC-2 之 前 就 停止 
了 交易 。 相 反 ，Apple 公司 在 市 场 营 销 上 表现 得 更 聪 
明 ， 初 始 投放 市 场 的 333MHz 的 iMac 有 5 种 可 选 颜 图 1-6 Acormn RiscPC (由 OmniBus 





色 , 尽管 最 近 变 成 了 全 和 白 、 全 黑 和 铝 合 金色 。 Systems Ltd 定制 ， 并 运行 他 
图 1-7 展示 了 iMac 的 产品 。 们 的 OUI 软件 ) 





图 1-7 搭载 Intel CPU 的 Apple iMac 运行 可 靠 的 基于 UNIX 的 操作 系统 ， 是 一 款 时 尚且 用 户 友 好 的 机 
器 。 这 台 机 器 配 有 27 英寸 ?的 屏幕 ， 其 历史 可 追溯 到 2007 年 (照片 由 维基 共享 资源 的 Mat- 
thieu Riegler 提供 ) 





日 1 英寸 =0.0254 米 。 一 一 编辑 注 
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1. 3.5 第 五 代 计 算 机 

第 五 代 计 算 机 可 能 具有 以 下 特点 : 

e 自然 的 人 机 交互 。 

。 非常 高 级 的 程序 设计 语言 一 一 甚至 可 以 用 英语 编程 。 

e 对 用 户 表现 出 智能 。 

在 撰写 本 书 时 还 没有 合适 的 示例 。 一 旦 有 了 这 样 的 例子 ， 也 很 有 可 能 没什么 值得 拍照 的 ， 
它 可 能 是 位 于 数 百 米 外 的 数据 中 心里 的 云 服务 ,或 是 分 布 在 人 们 周围 的 微型 钳 入 式 计算 机 集 
群 一 一 虽然 不 太 可 能 是 一 个 米色 盒子 ， 但 极 有 可 能 被 符 和 人 扬声器 和 麦克 风 中 。 

事实 上 ， 第 五 代 计 算 机 也 许 像 Amazon Echo 设备 (如 图 1-8 所 示 ) ， 又 或 者 像 包含 8 个 独立 
的 ARM 处 理 器 核 的 小 型 化 产品 iPhone。 








图 1-8 Amazon Echo 设备 ， 为 新 生 的 虚拟 数字 助理 Alexa 提供 基于 语音 的 接口 
(照片 由 维基 共享 资源 的 Frmorrison 提供 ) 


1.4 云 . 普 适 、 网 格 和 超 并 行 计 算 机 


回顾 一 下 计算 机 的 发 展 历史 。 最 开始 计算 机 是 占据 整个 房间 的 机 器 ， 无 论 是 机 械 部 分 还 是 
电子 部 分 都 需要 专门 的 人 来 维护 。 技 术 的 不 断 进 步 使 得 较 小 的 晶体 管 取 代 了 基于 真空 管 的 硬 
件 。 像 房间 大 小 的 计算 机 开始 逐步 缩小 。 后 来 人 们 发 明了 集成 电路 ， 最 初 集成 电路 可 以 承载 几 
百 个 晶体 管 ， 之 后 是 几 千 个 ， 后 来 更 多 。Rockwell 6502 处 理 器 产生 于 1975 年 ， 在 一 个 40 引 脚 
的 双 列 直 插 式 封 装 (DIP) 芯片 上 集成 了 大 约 4000 个 晶体 管 。 到 2008 年 ，Intel 可 以 在 单个 世 
片上 集成 20 亿 个 晶体 管 。 

计算 机 从 房间 大 小 缩小 到 几 台 冰箱 大 小 ， 然 后 缩小 到 一 台 冰 箱 大 小 ， 进 而 缩小 到 桌面 上 的 
盒子 大 小 ， 即 进入 个 人 计算 机 (PC) 时 代 。PC 又 变 得 更 小 。20 世纪 80 年 代 早 期 出 现 了 可 以 
随身 携带 的 计算 机 ， 然 后 是 便携 式 计算 机 、 膝 上 计算 机 、 笔 记 本 计算 机 和 掌上 计算 机 。 今 天 ， 
你 可 以 买 到 一 个 用 于 医疗 诊断 的 药片 ， 其 中 不 仅 包 括 完 整 的 做 人 式 计 算 机 ， 还 包括 传感器 和 
CMOS 照相 机 。 

那么 计算 机 发 展 史 是 一 个 单 向 小 型 化 的 故事 吗 ? 回答 是 否定 的 ， 因 为 计算 机 在 某 种 意义 上 
又 变 得 越 来 越 大 。 像 因特网 所 表现 的 网 络 化 趋势 使 得 计算 机 更 容易 相互 链接 ， 同 时 还 将 支持 计 
算 机 之 间 的 资源 共享 。 过 去 单机 完成 的 工作 今天 可 以 由 多 个 并 行 计算 单元 或 计算 机 集群 并 行 完 
成 ， 甚 至 可 以 由 地 理 位 置 各 异 的 计算 机 共同 完成 。 本 书后 续 会 讨论 所 有 这 些 类 型 的 并 行 和 互 
联 ， 着 重 看 它们 的 实现 方法 一 一 我 们 认识 到 系统 变 得 更 加 分 散 但 更 加 相互 关联 ， 事 实 上 无 论 是 











在 计算 机 领域 、 手 机 技术 还 是 工业 计算 法 上 ， 这 种 想法 都 是 正确 的 。 
因此 ， 假 设 我 们 需要 完成 的 任务 可 以 在 单个 小 盒子 上 执行 ， 也 可 以 由 分 布 在 我 们 周围 的 几 
台 计 算 机 〈 包 括 骨 入 式 的 ) 共同 完成 ， 那 么 问题 就 变 成 我 们 应 如 何 定义 “计算 机 ”一 一 是 这 
个 盒子 自身 ， 还 是 某 个 可 以 执行 该 任务 的 “东西 ? 
50 年 前 很 容易 定义 什么 是 “计算 机 ”， 因 为 计算 机 是 在 计算 机 机 房 中 。 今 天 ， 在 我 们 桌 
上 的 单个 盒子 中 就 有 可 能 包含 两 个 或 更 多 CPU ， 而 每 个 CPU 又 可 能 包含 几 个 计算 核 ， 而 我 
还 是 称 这 个 盒子 是 一 台 “ 计 算 机 ”。 当 我 进行 一 个 Web 搜索 时 ， 搜 索 请 求 会 被 送 到 某 搜索 门 
户 ， 在 那里 包括 10 000 多 个 计算 单元 〈 每 一 个 类 似 于 一 台 PC) 的 “服务 器 场 ” (server 
farm) 将 处 理 该 搜索 请 求 。 当 一 个 服务 器 场 协同 完成 处 理 时 ， 称 之 为 一 台 超 级 计算 机 ， 即 还 
一 台 计 算 机 。 
因此 ,计算机 又 变 大 了 ， 由 许多 较 小 的 单个 计算 单元 组 成 。 一 个 由 许多 计算 机 组 合 起 来 协 
同 工 作 的 突出 例子 是 巴塞 罗 那 的 超级 计算 机 ， 即 MareNostrum 4， 安 装 在 巴塞 罗 那 Torre Girona 





教 党， 于 2017 年 6 月 开始 运行 ， 如 图 1-9 所 示 。 
图 1-9 由 巴塞 罗 那 超级 计算 机 中 心 开 发 的 位 于 Torre Girona 教堂 中 的 MareNostrum 设施 
(图 片 由 维基 共享 资源 提供 ， 网 址 为 www. bsc. es ) 
1.5 未 来 


小 型 化 过 程 还 将 继续 。 越 来 越 多 的 产品 、 器 件 和 系统 包含 戏 入 式 计算 机 ， 而 且 没 有 任何 征 
兆 显 示 这 种 趋势 会 消亡 。 计 算 机 速度 会 继续 增加 。 最 终 ， 存 在 一 个 很 美妙 的 历史 轨迹 ， 请 看 
图 1-10 中 的 数字 ， 它 显示 出 计算 机 如 何 从 最 早期 开始 在 计算 速度 上 不 断 进步 一 一 纵 轴 显 示 了 
计算 机 在 每 秒 浮 点 运算 (FLOP/s) 中 的 性 能 峰值 ， 参 数 形式 上 为 一 个 对 数 ， 因 为 如 果 不 使 用 
对 数 刻度 ， 这 些 数字 无 法 有 意义 地 绘制 。 

在 撰写 本 文 时 ， 最 大 的 超级 计算 机 即将 达到 exaFLOP (EFLOP) 每 秒 的 性 能 。 如 果 按 照 
图 1-10 所 示 ， 计算机 性 能 在 不 断 提 高 ， 那 么 EFLOP/s 级 的 计算 机 将 很 快 与 我 们 见面 。 从 这 些 
数据 中 ， 可 以 发 现 “ 计 算 机 ”的 定义 在 简短 历史 中 已 经 被 多 次 改变 。 

在 这 一 点 上 ， 值 得 暂停 一 下 来 思考 已 经 取得 的 巨大 进步 。 很 难 有 其 他 的 生活 领域 可 以 实现 
如 此 惊人 的 持续 性 能 改善 。 大 部 分 推动 力 依然 尚 存 ， 例 如 ARM、 英 特 尔 和 AMD 等 主要 行业 参 
与 者 的 小 型 化 技术 和 独创 性 ， 以 及 通信 行业 和 全 球 互 联网 的 成 功 。 并 行 计算 已 经 成 为 建造 世界 
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上 最 快 的 计算 机 时 采用 的 主流 技术 ,这些 并 行 计算 机 都 比较 大 。 大 型 机 时 代 也 许 又 会 回来 ， 所 
不 同 的 是 大 型 机 可 以 坐落 在 其 他 国家 ， 用 户 可 以 通过 因特网 和 无 线 网 络 访问 这 台大 型 机 。 这 些 
大 型 机 非常 耗 能 ， 据 说 某 些 服务 器 集群 消耗 的 能 量 甚至 与 整个 城镇 一 样 多 。 考 虑 到 这 一 点 ， 也 
许 明智 的 方法 是 将 这 些 大 型 机 放 在 寒冷 的 区 域 ， 或 许 它们 产生 的 多 余 的 热量 还 可 以 用 来 温暖 附 
近 的 房屋 。 

log(FLOP/s) FLOP/s 


1 1 
3 1000 lkFLOP/s 


6 1 000 000 1IMFLOP/s 
9 1 000 000 000 1GFLOP/s 
12 1 000 000 000 000 1TFLOP/s 
15 1 000 000 000 000 000 1PFLOP/s 
18 1 000 000 000 000 000 000 1EFLOP/s 


log(FLOP/s) 





一 ——— ] FLOP/s 
1941 1954 1967 1980 1993 2006 2017 


图 1-10 ”从 始 至 终 ， 计 算 机 在 计算 速度 上 令 人 惊叹 的 进步 (1941 ~ 1993 年 的 数据 由 美国 田纳西 
大 学 的 Jack Dongarra 教授 提供 ，1993 ~ 2017 年 的 数据 从 http :MYwww. top500. org 获得 ) 


如 今 ， 从 计算 机 功能 的 角度 出 发 ， 将 大 容量 计算 资源 分 离开 的 技术 ( 即 有 线 或 无 线 连 接 ) 
已 经 实现 ,但 是 能 够 利用 这 种 计算 模型 的 服务 和 软件 出 现 得 较 慢 。 

然而 ， 这 并 不 意味 着 现在 要 放弃 对 现 有 计算 机 及 其 体系 结构 的 改进 ( 那 意 味 着 你 可 以 不 继 
续 往 下 读 了 ) ， 但 这 确实 意味 着 重点 可 能 发 生变 化 ， 即 从 大 的 、 高 功 耗 的 转向 小 的 、 低 功 耗 的 ， 
从 大 规模 的 数值 计算 转向 舱 入 式 和 专用 计算 ,从 固定 位 置 的 孤立 设备 转向 随处 可 见 的 网 络 
计算 。 

回 到 本 书 的 教育 目的 ， 在 计算 机 系统 上 工作 的 工程 师 一 直 被 问 到 这 样 的 问题 : “在 我 的 系 
统 中 应 该 使 用 什么 处 理 咒 ?”“ 在 我 的 系统 中 如 何 才能 使 处 理 器 正确 工作 ?” 本 书 将 提供 回答 这 
两 类 问题 所 需 的 背景 知识 。 另 外 ， 这 些 知识 还 可 以 用 来 回答 新 的 问题 ， 例 如 , “我 是 应 该 使 用 
轻 量 级 CPU 且 连 到 远程 服务 器 进行 处 理 ， 还 是 全 部 在 更 强大 的 CPU 内 部 进行 处 理 ?”“ 在 我 的 
应 用 程序 中 应 该 使 用 单个 快速 CPU 还 是 多 个 较 慢 的 CPU?” 

尽管 存在 许多 像 MareNostrum 4 这 样 的 超级 计算 机 ， 但 当今 计算 基本 上 可 归 人 财 和 式 工 程 
领域 ， 即 垦 入 式 器 件 和 消费 电子 器 件 中 的 普 适 计算 技术 。 以 图 1-11 所 示 的 三 星 手机 为 例 ， 智 
能 手机 中 包含 大 约 9 个 独立 的 微 处 理 器 ， 而 这 些微 处 理 器 几乎 都 是 基于 ARM 的 。 因 此 ， 对 于 
未 来 是 怎样 的 这 一 问题 的 答案 是 ， 我 们 可 以 预测 两 种 趋势 : 一 种 是 更 少 但 更 大 的 大 型 计算 机 集 
群 〈 特 殊 的 计算 机 ， 比 如 远程 服务 器 集群 中 大 型 的 高 性 能 计算 机 ) ; 另 一 种 是 更 多 但 更 小 的 个 
人 化 计算 器 件 〈 普 适 计算 ， 意 味 着 在 任何 地 方 都 可 以 获取 和 处 理 信 息 ) 。 
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图 1-11 从 左 到 右 分 别 为 三 星 Galaxy S8 + 、Galaxy S7 Edge 和 Galaxy S8 (照片 来 自 马 
来 西亚 吉隆 坡 的 弗 农 . 陈 (Vernon Chan) ， 由 Wikimedia Commons 提供 ) 


最 后 ， 需 要 指出 两 种 极端 计算 的 操作 软件 主要 并 且 越 来 越 多 地 基于 Linux。 同 时 ， 骨 入 式 


系统 的 首选 处 理 器 是 ARM ( 可 能 适用 于 未 来 的 服务 器 群 )。 这 两 种 技术 将 在 本 书 的 其 余部 分 中 
得 到 很 好 的 探索 。 


1.6 小 结 


你 可 能 不 会 去 建造 世界 上 最 快 的 超级 计算 机 (也 许 你 会 ， 谁 知道 呢 ?) ， 但 你 很 有 可 能 会 
去 设计 散 入 式 系 统 或 进行 嵌入 式 程序 设计 。 

本 章 介绍 了 计算 技术 的 发 展 历史 : 不 断 向 前 进步 ， 在 技术 和 理解 上 有 许多 大 的 飞跃 ， 但 也 
存在 成 百 万 的 小 步伐 改进 。Isaac Newton 在 给 他 的 竞争 对 手 Robert Hooke 的 一 封 信 中 写 道 : “如 
果 我 能 够 看 得 更 远 ， 是 因为 我 站 在 了 巨人 的 肩膀 上 。” 

对 于 大 多 数 计算 机 设计 者 来 说 这 是 完全 正确 的 。 你 站 在 巨人 肩膀 上 的 最 好 办 法 是 利用 现 有 
的 计算 机 设计 下 一 代 计 算 机 。 

基于 这 样 的 历史 观察 和 在 这 个 领域 继续 前 行 的 信心 ， 现 在 应 当做 的 是 从 过 去 几 十 年 的 计算 

机 系统 设计 者 那里 学 习 技术 。 下 面 的 章节 将 进行 这 个 过 程 ， 首 先 不 考虑 计算 机 性 能 提升 问题 ， 
而 是 学 习 无 论 是 大 型 机 、 台 式 机 还 是 嵌入 式 系统 都 需要 的 基本 的 基础 技术 。 然 后 ， 我 们 花 一 些 
时 间 进 一 步 了 解 戏 人 式 系统 。 最 后 ， 我 们 将 进一步 探索 计算 机 世界 中 未 来 极 富 潜力 的 技术 。 
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本 章 介 绍 一 些 背 景 知识 ， 用 来 解读 现代 中 央 处 理 单元 (CPU) 的 设计 。 我 们 将 关注 计算 机 
组 成 与 分 类 的 形式 化 方法 ; 定义 大 量 的 描述 计算 机 系统 的 术语 ; 讨论 计算 机 算法 以 及 数据 表 
示 ; 了 解 几 个 组 成 结构 的 模块 ， 这 些 模块 在 后 面 分 析 计算 机 系统 时 会 再 次 遇 到 。 


2.1 计算 机 组 成 


计算 机 是 什么 ? 虽然 在 第 1 章 中 提 到 了 这 个 问题 ， 但 那 时 是 通过 外 部 观察 来 实现 的 : 将 计 
算 机 定义 为 能 够 执行 计算 任务 的 设备 一 一 无 论 大 型 或 小 型 ， 单 CPU 或 多 CPU， 分 布 式 或 本 
地 化 。 

在 本 章 中 ,我 们 将 检查 内 部 构造 ， 探 索 这 些 内 部 元 素 是 什么 ， 以 及 它们 是 如 何 联系 在 一 起 
的 。 为 了 回答 这 些 问题 ， 我 们 首先 应 认识 到 计算 机 的 结构 内 部 存在 各 种 各 样 的 可 能 性 。 比 如 今 
天 的 台式 计算 机 ， 许 多 原来 连接 在 CPU 周围 的 外 设 模块 现在 都 封装 在 一 个 集成 电路 芯片 之 内 ， 
这 并 不 是 先驱 者 们 所 认定 的 计算 机 。 然 而 ， 一 直 以 来 计算 机 中 的 大 部 分 模块 都 仍然 存在 ， 即 使 
它们 不 是 立即 就 能 被 识别 出 来 。 在 骨 入 式 系统 中 这 个 趋势 更 为 明显 : 将 几乎 所 有 必需 的 功能 都 
集成 在 一 个 必 片 上 的 片上 系统 (SoC) 现在 已 占据 主导 地 位 。 

其 次 ,并非 所 有 的 计算 机 都 以 同样 的 方式 构成 ,或 有 同样 的 需求 。 它 们 的 尺寸 也 多 种 多 
样 ， 从 一 个 房间 大 小 的 超级 计算 机 到 类 似 于 手表 大 小 的 个 人 数字 助理 (PDA)， 其 至 小 到 能 够 
集成 到 可 以 被 吞 下 或 注入 皮 下 的 小 药片 中 。 这 些 不 同 尺寸 的 计算 机 显然 不 太 可 能 都 具有 相同 的 
设计 或 相同 的 软件 。 

尽管 可 能 性 各 种 各 样 ， 但 大 多 数 系统 都 包含 功能 相似 的 模块 。 这 些 模块 在 布局 上 是 放 在 
CPU 芯片 的 内 部 还 是 外 部 ， 取 决 于 设计 和 成 本 方面 的 考虑 ， 模 块 虽然 在 尺寸 、 复 杂 性 和 性 能 上 
会 有 很 大 差异 ,但 它们 基本 上 是 在 做 相同 类 型 的 工作 (尽管 速度 不 同 )。 内 部 互 连 ( 总线) 通 
常 是 并 行 的 ,“ 宽 度 ” 和 时 钟 速度 也 是 设计 时 要 考虑 的 因素 。 然 而 现在 串 行 总 线 正 变 得 越 来 越 
流行 。 较 低 的 成 本 和 复杂 性 使 得 串 行 总 线 现在 也 主导 着 外 部 连接 。 它 们 使 用 类 似 的 原则 ， 不 过 
速度 有 很 大 差异 。 

计算 机 内 部 除了 要 有 大 小 功能 块 、 快 速 功能 块 和 慢 速 功能 块 之 外 ， 另 一 个 要 考虑 的 设计 因 
素 是 使 每 个 功能 模块 都 有 多 个 副本 ， 或 者 在 模块 之 间 有 多 个 互 连 总 线 。 

因为 有 这 些 差异 ， 所 以 需要 按照 某 种 方式 定义 不 同 的 体系 结构 。 最 早 是 在 1966 年 ，Mi- 
chael Flynn 首先 提出 了 一 种 描述 计算 机 系统 的 分 类 方法 一 一 Flynn 分 类 法 。 


2. 1.1 Flynn 分 类 法 


现在 广泛 使 用 的 Flynn 分 类 法 最 初 是 由 Micheal Flynn 于 1966 年 设计 的 ， 是 用 于 描述 计算 机 系统 
及 其 多 功能 单元 的 综合 分 类 方案 。 它 根据 指令 流 的 数量 和 存在 的 数据 流 的 数量 对 计算 机 进行 分 类 。 
一 系列 修改 那些 流 经 数据 处 理 单元 的 数据 (数据 流 ) 的 命令 ,可 以 被 认为 是 一 个 指令 流 。 
图 2-1 显示 了 4 种 不 同情 况 ， 包 括 : 
。 单 指令 流 单数 据 流 (SISD) 一 一 传统 的 计算 机 包含 单个 CPU， 它 从 存储 在 内 存 中 的 程 
序 那里 获得 指令 ， 并 作用 于 单一 的 数据 流 〈 本 例 中 就 是 一 个 指令 处 理 一 条 数据 ) 。 
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。 单 指令 流 多 数据 流 (SIMD) 一 一 单个 的 指令 流 作用 于 多 于 一 个 的 数据 流 上 。 例 如 有 数 
字 4、5 和 3、2, 一 个 单 指令 执行 两 个 独立 的 加 法 运算 : 4+5 和 3 +2， 就 被 称 为 单 指 
令 流 多 数据 流 。SIMD 的 一 个 例子 就 是 一 个 数组 或 向 量 处 理 系统 ， 它 可 以 对 不 同 的 数据 
并 行 执行 相同 的 操作 。 

。 多 指令 流 单数 据 流 (MISD) 一 一 用 多 个 指令 作用 于 单个 数据 流 的 情况 实际 上 很 少见 。 
这 种 元 余 多 用 于 容错 系统 。 

。 多 指令 流 多 数据 流 (MIMD ) 一 一 这 种 系统 类 似 于 多 个 SISD 系统 。 实 际 上 ，MIMD 系 
统 的 一 个 常见 的 例子 是 多 处 理 器 计算 机 。 





SISD 





图 2-1 Flynn 分 类 法 中 SISD、SIMD 、MISD 和 MIMD 处 理 示 例 。 这 4 个 分 类 显示 了 在 某 个 时 间 点 上 执 
行 的 指令 和 数据 之 间 的 关系 〈 因 为 这 个 分 类 是 按照 指令 流 和 数据 流 的 共同 特征 进行 划分 的 ) 


虽然 Flynn 设计 此 分 类 法 的 初衷 是 描述 处 理 器 级 的 布局 ， 但 它 也 同样 可 以 适用 于 处 理 器 内 
部 的 单元 模块 。 例 如 ，Intel Pentium 处 理 器 上 的 多 媒体 扩展 (MMX) 和 以 后 的 单 指令 多 数据 流 
扩展 (SSE) 都 是 SIMD 的 例子 。 它 允许 发 出 一 个 单一 的 指令 去 操作 多 个 数据 项 〈 如 8 对 数据 
同时 执行 不 同 的 加 法 ) 。 我 们 将 在 4. 7 节 一 起 介绍 MMX 与 SSE。 


2. 1.2 连接 方式 


另 一 种 对 处 理 器 体系 结构 的 常见 描述 是 基于 对 程序 指令 和 数据 是 共同 处 理 还 是 单独 处 理 。 
。 冯 “' 诺 依 曼 体 系 结构 的 系统 共享 数据 和 指令 的 存储 以 及 传输 资源 。 许 多 现代 计算 机 都 
属于 这 一 类 ， 它 们 在 RAM 中 存储 程序 和 数据 ， 并 使 用 单一 的 总 线 将 程序 和 数据 从 内 存 
传输 到 CPU。 但 是 ， 总 线 具 有 最 大 带宽 (意味 着 每 秒 只 能 传输 一 定数 量 的 数据 ， 通 常 
以 Mbit/s 或 Gbit/s 为 单位 ) ，CPU 内 部 的 指令 通常 对 数据 项 进行 操作 。 因 此 ， 在 正常 
操作 期 间 ， 指 令 和 数据 项 都 必须 传送 到 CPU。 如 果 两 者 都 位 于 共享 内 存 中 ， 并 且 共 享 


基础 知识 13 





总 线 ， 那 么 它们 也 共享 带宽 ， 这 意味 着 会 对 性 能 产生 限制 。 

哈佛 体系 结构 的 系统 将 数据 和 指令 分 开 进 行 存储 与 传输 ， 这 使 指令 和 数据 项 都 可 以 占 
用 各 自 存储 总 线 的 全 部 带宽 ， 并 能 实现 同时 传输 。 这 样 的 系统 可 以 实现 高 性 能 ， 但 是 
是 有 代价 的 ， 因 为 实现 高 速 存储 和 高 速 总 线 所 需要 用 到 的 硅 材 料 是 非常 昂贵 的 。 

其 他 的 体系 结构 包括 带 有 多 个 专用 总 线 的 系统 (如 ADSP2181 内 部 总 线 ) ， 地 址 总 线 共 
享 数据 /指令 ， 而 数据 总 线 是 独立 的 或 类 似 的 结构 。 第 4 章 还 将 进一步 介绍 并 详细 阐述 


内 部 总 线 结构 。 


一 些 CPU 虽然 通过 一 个 单一 的 总 线 共 享 内 存 接口 ， 却 宣称 是 哈佛 体系 结构 处 理 器 ， 如 In- 
tel 的 StrongARM 处 理 咒 。StrongARM 处 理 器 内 部 是 哈佛 体系 结构 ， 因 为 它 包 含 了 独立 的 内 部 数 
据 和 指令 高 速 缓存 模块 ， 但 它 的 外 部 是 冯 ' 诺 依 曼 连接 方式 。 


2. 1.3 计算 机 结构 层次 视图 


有 时 可 以 把 计算 机 系统 看 成 相互 联系 的 多 个 层 
次 。 图 2-2 描述 了 层 与 层 之 间 的 连接 操作 ， 也 可 以 
看 作 层次 化 的 操作 。 

从 下 往 上 ， 任 何 计 算 机 或 CPU 都 可 以 被 看 成 执 
行 逮 辑 运 算 的 门 集 合 。 这 些 逻 辑 运算 是 通过 微 程序 
或 状态 机 的 控制 来 完成 所 需 功能 的 ， 微 操作 序列 由 
指令 集中 的 一 条 或 多 条 指令 指定 。 基 本 输入 输出 流 
(BIOS) 可 以 认为 是 在 计算 机 首次 启动 时 运行 的 小 型 
内 置 程序 ， 同 时 也 是 向 硬件 发 出 的 指令 。 用 户 程序 
是 硬件 的 指令 序列 ， 但 是 可 以 另外 要 求 BIOS 或 操作 
系统 (0S) 执行 功能 。 与 BIOS 一 样 ，0S 功能 是 可 
以 执行 预先 指定 任务 的 小 程序 。 作 为 程序 ， 这 些 功 
能 也 实现 为 一 系列 向 硬件 发 出 的 指令 。 

有 趣 的 是 ， 这 个 层次 模型 很 像 用 于 计算 机 软 硬 
件 的 开放 系统 互 连 (0SI) 模型 (0SI 模型 将 在 
10. 4 节 详 细 介绍 ) 。 


2.2 计算 机 基本 原理 


计算 机 结构 操作 






vo 作 系 统 代码 ，BIOS 调 用 


硬件 译 码 和 解释 
处 理 器 微 体系 结构 


图 2-2 计算 机 组 织 与 结构 层次 视图 


本 书 所 描述 的 计算 机 系统 ， 如 2. 1. 1 节 中 讨论 的 SISD 计算 机 ， 通 常 包括 一 些 由 总 线 连 接 
起 来 的 功能 单元 。 本 章 将 简要 介绍 这 些 单元 ， 在 后 续 的 章节 中 再 详细 论述 。 





。 中 央 处 理 单元 ( CPU) 


通过 对 指令 的 解释 以 及 内 置 的 行为 来 控制 计算 机 的 部 件 。 


它 可 以 处 理 输入 /输出 功能 ， 完 成 算术 和 逻辑 运算 (也 可 以 说 包含 一 个 ALU)。CPU 不 
再 仅仅 指 CPU 的 物理 IC， 它 可 能 包含 内 存 、 网 络 硬件 、 许 多 外 围 设备 ， 甚 至 包含 电源 
调节 电路 〈 特 别 是 对 于 单片机 ) 。” 

算术 逻辑 单元 (ALU) 一 一 CPU 中 的 这 个 部 件 完成 加 、 减 、 与 、 或 等 简单 的 算术 逻辑 
运算 。 它 是 一 个 异步 单元 ， 从 并 行 连接 的 寄存 器 或 总 线 输 入 两 个 数据 ， 输 出 直接 连接 
到 寄存 器 或 者 是 通过 三 态 缓冲 器 连接 到 总 线 。 此 外 ， 它 有 一 个 控制 输入 用 来 选择 执行 
哪个 运算 ,以 及 一 个 状态 寄存 器 接口 。 在 现代 处 理 器 的 芯片 内 部 ， 它 仅 被 用 来 处 理 定 
点 二 进 制 (偶尔 是 BCD 码 ) 数值 。 





加 ”CPU 一 词 的 定义 宽泛 ， 因 此 ， 如 果 是 指 中 央 处 理 单元 或 单 芯 片 计算 机 ， 将 在 文中 单独 说 明 。 
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。 浮 点 运算 单元 (FPU) 或 者 在 片上 ， 或 者 作为 外 部 协 处 理 器 ， 负 责 浮 点 数 的 算术 
运算 。 大 多 数 现代 FPU 支持 的 浮 点 格式 是 正 EE754 标准 (将 在 2. 8. 2 节 介 绍 )。 它 相 
对 较 慢 (可 能 需要 数 十 或 数 百 个 指令 周期 来 完成 一 个 计算 ) ， 通 常 通过 专用 浮 点 寄存 
器 连接 到 主 CPU。 

e 内 存 管理 单元 (MMU ) 一 一 该 单元 在 处 理 器 寻 址 空间 和 真正 的 物理 存储 之 间 提 供 了 一 

个 抽象 层 ， 这 种 抽象 被 称 为 虚拟 内 存 。MMU 把 处 理 器 需要 访问 的 虚拟 地 址 转换 为 一 个 
真正 的 内 存 中 的 物理 地 址 。 处 理 器 通常 看 到 的 是 大 片 连续 的 内 存 地 址 空间 ， 这 是 因为 
MMU 屏蔽 了 物理 存储 的 组 织 ， 真 正 的 物理 存储 空间 可 能 是 由 不 同 尺寸 〈 更 大 或 更 小 )、 
不 连续 的 部 分 RAM 和 部 分 硬盘 构成 。 

另外 ,我 们 还 需要 讨论 一 些 概念 ,在 详细 介绍 这 些 概念 之 前 先 在 这 里 进行 定义 : 

。 寄存 器 一 一 直接 连接 到 CPU 内 部 总 线 的 片上 ?存储 单元 ， 访 问 速 度 非常 快 (通常 是 一 
个 指令 周期 ) 。 它 容易 和 某 些 CPU 的 片上 内 存 或 picoJava 本 处 理 器 中 的 堆栈 混淆 。 

。 三 态 缓冲 器 一 一 用 于 控制 是 否 驱动 总 线 的 设备 ， 通 常 位 于 寄存 器 和 总 线 之 间 ， 由 寄存 
器 控制 何 时 驱动 总 线 。 三 态 中 的 前 两 种 状态 是 驱动 总 线 电压 为 逻辑 高 或 逻辑 低 ; 第 三 
种 状态 为 高 阻 态 ， 这 意味 着 该 设备 不 驱动 总 线 。 

。 复杂 指令 集 计 算 机 (CISC) 一 一 将 能 想到 的 所 有 有 用 的 操作 都 放 到 CPU 硬件 中 ; 不 必 
担心 有 多 大 、 多 耗 电 或 使 CPU 变 慢 ， 那 么 最 终 得 到 的 就 是 一 个 CISC 机 器 。 早 期 的 
VAX 机 器 就 是 一 个 例子 ， 据 说 它 包 含 执行 超过 2000 个 时 钟 周期 的 指令 。 
精简 指令 集 计 算 机 (RISC) 一 一 CPU 的 性 能 受 其 内 部 最 慢 组 件 以 及 芯片 面积 的 限制 。 
基于 80% 的 指令 只 使 用 了 20% 的 执行 时 间 ， 而 剩 下 的 20% 的 指令 却 占 用 了 80% 的 芯片 
面积 这 样 一 个 前 提 ，CPU 被 精简 到 只 包含 这 80% 最 有 用 的 指令 。 这 使 它们 紧凑 而 快 
速 ， 并 且 能 够 非常 高 效 地 执行 这 些 通用 指令 。 有 时 ， 对 RISC 的 有 效 定义 意味 着 “支持 
一 个 少 于 100 条 指令 的 指令 集 ”。 

。 指令 周期 一 一 指 一 条 指令 被 取 指 、 译 码 、 执 行 到 返回 结果 的 时 间 ， 可 能 是 一 个 或 多 个 
主 时 钟 周期 (由 外 部 晶振 产生 的 ) 。 对 RISC 处 理 器 ， 指 令 通常 都 是 在 单个 时 钟 周期 内 
执行 完 ; 对 CISC 处 理 器 ， 有 些 指令 会 需要 很 长 时 间 。 

。 大 小 尾 端 一 一 大 尾 端 (big endian) 指 高 字 节 放 在 前 面 ， 常 用 在 68000 或 SPARC 这 些 处 
理 器 中 。 小 尾 端 (little endian) 指 低 字 节 放 在 前 面 ， 用 于 Intel x86 系列 中 。 某 些 处 理 
器 (如 ARM7) 允许 进行 大 、 小 尾 端的 切换 。 

不 幸 的 是 ， 在 现代 计算 机 中 ， 内 存 的 各 种 宽度 使 尾 端 问题 变 得 很 复杂 。 如 果 所 有 的 内 存 都 

是 字 节 宽度 那 就 简单 了 ,但 现在 增加 了 难度 。 给 定 一 个 未 知 的 系统 ， 可 能 会 比较 容易 先 判 断 是 
和 否 是 小 尾 端 ， 如 果 不 是 ， 再 归 类 为 大 尾 端 。 在 框 2.1、 框 2.2、 框 2.3 和 框 2.4 中 详细 讨论 了 这 
个 问题 。 
尾 端 实例 1 
问 : 将 一 个 32 位 宽 的 字 存 储 在 一 个 16 位 体系 结构 的 存储 系统 中 ， 下 图 所 示 为 存储 字 最 低 有 效 字 节 
(LSB) 、 第 二 字 节 (Bl1)、 第 三 字 节 (B2) 和 最 高 有 效 字 节 (MSB) ， 这 是 小 尾 端 还 是 大 尾 端 ? 























加 ”原本 这 些 都 是 独立 的 硬件 ， 但 现在 出 于 访问 的 便利 性 和 速度 的 考虑 都 集成 到 了 一 个 芯片 上 。 
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图 中 ， 内 存 的 行 号 (16 位 字 ) 在 左边 ， 位 的 位 置 (0 ~15) 标 在 下 面 。 

答 : 首先 检查 是 不 是 小 尾 端 ， 我 们 确定 最 低 字 节 的 内 存 地 址 ， 然 后 向 上 计数 。 本 例 中 ， 最低 字 节 的 
地 址 行 号 为 0， 最 低位 也 是 从 第 0 位 开始 。 内 存 中 的 下 一 个 字 节 开始 于 第 8 位， 仍然 是 在 第 0 行 。 其 次 是 
1 行 0 位 ， 最 后 是 第 1 行 的 第 8 位 。 从 最 低 字 节 的 地 址 的 内 容 开 始 向 上 数 ， 可 以 得 到 1LSB、B1、B2、 
MSB} 。 由 于 这 个 顺序 遵循 从 最 低 字 节 到 最 高 字 节 的 格式 ， 因 此 它 一 定 是 小 尾 端 。 
尾 端 实例 2 

问 : 一 个 32 位 的 字 存 储 如 下 。 这 表示 的 是 小 尾 端 还 是 大 尾 端 ? 





答 : 首先 ， 确 定 最 低 字 节 的 内 存 地 址 。 这 显然 是 从 地 址 第 0 行 第 0 位 开始 ， 其 次 是 第 0 行 第 8 位 ， 
以 此 类 推 。 从 最 低 字 节 到 最 高 字 节 依次 写 出 内 容 ， 我 们 得 到 序列 1MSB，B2，B1，LSB}。 这 个 顺序 不 遵 
循 由 最 低 字 节 到 最 高 字 节 的 格式 ， 它 不 是 小 尾 端 。 因 此 ， 它 一 定 是 大 尾 端 。 
尾 端 实例 3 

问 : 给 定 内 存 映 射 如 下 图 所 示 ， 在 图 中 填 入 以 小 尾 端 格式 表示 的 一 个 32 位 数字 的 MSB、B1、B2 和 


LSB 字 节 。 
= 广 [ 
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答 : 小 尾 端 通常 都 比较 容易 : LSB 是 在 最 低 字 节 地 址 ， 然 后 顺 着 内 存 向 上 数 到 MSB。 首 先 ， 需 要 确 
定 内 存 中 最 低 字 节 地 址 的 位 置 。 本 例 中 ,位 号 标注 在 表格 的 下 方 一 一 它们 从 左边 开始 向 右 递 增 ， 因 此 最 
低 字 节 的 地 址 是 指 第 20 行 第 0 位 ， 下 一 字 节 是 第 20 行 第 8 位 ， 依 次 向 上 。 最 终 的 结果 应 该 是 : 














注意 : 再 关注 一 下 这 个 地 址 。 它 的 位 置 是 不 连续 的 ， 行 号 不 是 一 个 一 个 增加 的 〈 像 其 他 的 例子 那 
样 ) ， 这 些 地 址 是 4 字 节 递增 的 。 这 表明 内 存 是 按 字 节 编 址 ， 而 不 是 按 字 编 址 的 。 这 是 典型 的 ARM 处 理 
器 ， 内 存 按 字 节 独立 编 址 ， 尽 管 拥 有 32 位 宽 的 存储 器 。 

尾 端 实例 4 
问 : 给 定 内 存 映 射 如 下 图 所 示 ， 写 出 用 大 尾 端 格 式 表 示 的 16 位 数字 的 MSB 和 LSB 字 节 。 








人 0 


答 : 同样 ， 需 要 确定 在 图 示 的 内 存 中 哪个 是 最 低 字 节 的 地 址 ， 然 后 将 MSB 字 节 放 进 去 ， 因 为 是 大 尾 
端 模式 。 本 例 中 ， 内 存 是 从 上 向 下 编 址 的 一 一 某 些 处 理 器 制造 商 所 用 的 共同 的 格式 ， 上 面 是 低地 址 ， 依 
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次 向 下 计数 。 由 于 内 存 是 字 节 宽度 ， 因 此 很 容易 写 出 答案 如 下 : 





2.3 数字 格式 


现代 各 种 计算 机 在 算术 和 逻辑 数据 处 理 上 的 方法 都 是 相同 的 : 利用 相同 的 数字 格式 (可 分 
为 8、16、32、64 位 架构 ) ， 可 以 按照 同时 处 理 的 数据 位 数 (数据 宽 度 ) 对 计算 机 进行 分 类 。 
这 意味 着 二 进 制 数 据 的 位 数 由 典型 的 指令 来 控制 ， 或 者 保存 在 数据 寄存 器 中 ， 它 们 甚至 往往 采 
用 类 似 的 技术 来 处 理 数 字 。 早 期 的 计算 机 并 非 如 此 ， 很 多 非 标准 的 数据 宽度 和 格式 从 生 ， 其 中 
大 部 分 已 成 为 历史 。 

可 以 说 ， 大 约 有 7 种 (或 更 少 的 ) 二 进 制 数字 格式 今天 仍然 在 使 用 。 框 2.5 讨论 了 什么 是 
数字 格式 ， 但 为 了 让 我 们 在 后 面 的 章节 中 更 好 理解 硬件 的 处 理 ， 需 要 在 这 里 回顾 一 下 本 书 中 会 
遇 到 的 各 主要 格式 。 

再 ”什么 是 数字 格式 

我 们 都 知道 十 进 制 格式 ， 无 论 是 整数 123 还 是 小 数 1.23， 都 是 以 10 为 基数 的 例子 。 这 是 我 们 计算 金 
钱 、 计 算 GPA 等 数学 问题 时 使 用 的 自然 数字 格式 。 

事实 上 ， 有 无 限 多 种 方式 来 表示 一 个 数字 ( 即 有 无 限 多 种 基数 ) ， 但 其 中 只 有 少数 是 常见 的 。 除 了 
十 进 制 格式 以 外 ， 十 六 进 制 格式 〈 基 数 为 16) 经 常会 用 在 软件 中 ， 而 二 进 制 格式 〈 基 数 为 2) 常用 在 硬 
件 中 。 

我 们 将 在 所 有 示例 中 使 用 二 进 制 、 十 六 进 制 或 十 进 制 。 用 前 级 0x 来 表示 可 能 被 误解 的 十 六 进 制 数 ， 
例如 0x00FF0010 (可 写 为 0x00FF，0010 或 0x00FF 0010 ， 来 打破 整个 长 串 数 字 ) 。 

对 于 二 进 制 ， 我 们 有 时 会 使 用 尾随 b 来 表示 可 能 被 误解 的 二 进 制 数 ， 例 如 00001101b (为 了 清楚 起 
见 ， 我 们 将 经 常 将 长 串 数 字 分 成 四 个 一 组 ， 例 如 0000 1101b)。 


2. 3.1 无 符号 二 进 制 


在 无 符号 二 进 制 格式 中 ， 一 个 数据 字 中 每 一 位 的 权 值 是 和 其 位 置 相关 的 2 的 相应 次 究 。 这 
听 起 来 很 复杂 ， 但 用 起 来 很 容易 。 例 如 ，8 位 二 进 制 字 00110101b 相当 于 十 进 制 的 33。 末尾 的 
b 表明 它 是 一 个 二 进 制 数字 ; 从 右 向 左 读 ， 数 值 计算 过 程 为 : 
bo) Oy Ly OY TL FY E02 
在 一 般 情 况 下 ， 一 个 nn 位 二 进 制 数 x 的 值 可 表示 如 下 ， 其 中 x[ 引 是 从 右 向 左 读 的 第 i 位 
(从 第 0 位 开始 ) : 





"= i] .2 
人 们 对 于 无 符号 二 进 制 格式 只 ! 需 稍 加 练习 就 很 容易 阅读 ， 并 能 有 效 地 通过 计算 机 处 理 。 练 
习 转 换 最 好 的 方法 就 是 绘制 如 下 网 格 。 


ee ee a 


若 从 二 进 制 转 换 为 十 进 制 ， 写 人 需要 转换 的 二 进 制 数 并 读 取 总 和 即 可 。 为 了 说 明 这 一 点 ， 
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使 用 上 面 的 00110101b 示例 ， 得 到 下 面 的 表 : 


CE 


由 此 ， 可 以 读 取 1+4+16 +32 的 总 和 ， 从 而 计算 出 十 进 制 数 53 。 

若 换个 方式 转换 〈 从 十 进 制 到 二 进 制 ) ， 最 快 的 方法 是 按 从 左 到 右 的 顺序 。 从 128 开始 ， 
确定 要 转换 的 数字 是 否 大 于 128。 如 果 是 ， 在 第 一 列 中 写 人 1 并 从 数字 中 减 去 128。 如 果 不 是 ， 
则 写 一 个 0 并 继续 。 移 至 第 二 列 ， 确 定 转换 的 数字 是 否 大 于 64。 如 果 是 ， 在 这 一 列 中 写 人 !1 并 
从 数字 中 减 去 64。 如 果 不 是 ， 写 一 个 0 然后 继续 ， 直 到 到 达 最 后 一 列 。 有 趣 的 是 ， 位 权重 为 1 
的 最 后 一 列 将 显示 该 数字 是 奇数 (1) 还 是 偶数 (0) 。 

框 2.7 给 出 了 其 他 一 些 用 于 转换 不 同 格式 数字 的 工作 示例 。 


2.3.2 原 码 


原 码 格 式 保留 最 高 有 效 位 ( MSB) 来 表示 正 负 ( 称 为 “符号 位 ”)， 然 后 利用 其 剩余 的 低 
有 效 位 的 无 符号 二 进 制 数值 来 表示 绝对 值 的 大 小 。 按 照 惯例 ，MSB 为 0 表示 正 数 ， 为 1 表示 
负数 。 

例如 ，4 位 带 符号 数 1001 表示 -1，8 位 数值 10001111b 相当 于 十 进 制 的 - 15。 除 符号 位 之 
外 ,十进制 + 15 的 值 同 样 是 00001111b。 


2.3.3 反 码 


反 码 格式 在 很 大 程度 上 已 经 被 补 码 表示 法 取代 ， 但 偶尔 还 是 可 以 看 到 ,尤其 是 在 某 些 人 硬件 
实现 中 。 这 种 格式 同样 是 用 MSB 表示 符号 ， 其 余 位 表示 绝对 值 。 但 是 ， 与 带 符号 数 的 不 同 之 
处 是 ， 如 果 该 数字 为 负 〈 即 符号 位 为 1) ， 则 绝对 值 位 的 值 是 反 的 〈 也 就 是 当 符号 位 为 1 时 ， 
其 余 位 都 变 了 ,0 变 成 了 1，1 变 成 了 0) 。 

例如 ,8 位 的 反 码 11110111b 等 于 十 进 制 的 -8, 而 +8 的 写法 和 原 码 写法 一 样 ， 
为 00001000b。 


2.3.4 补 码 


补 码 〈two"s complement) 无 疑 是 现代 计算 机 中 最 常见 的 数字 表示 格式 。 由 于 它 的 高 效 性 ， 
补 码 已 经 取得 了 相当 的 优势 : 无 符号 数 算术 运算 的 硬件 电路 同样 可 以 用 于 补 码 运算 。 补 码 表示 
同样 用 MSB 表示 符号 ， 正 数 的 表示 类 似 于 无 符号 数 的 二 进 制 形 式 。 然 而 ， 负 数 的 补 码 的 数值 
位 是 在 反 码 的 基础 上 加 1 ( 框 2.6 提供 了 用 此 方法 求 “ 一 个 数字 的 补 码 ” 的 二 进 制 例子 ) 。 

例如 ， 由 二 进 制 数字 1011 表示 的 4 位 补 码 相当 于 十 进 制 的 -8+2+1= -5, 8 位 的 补 码 
10001010 相当 于 十 进 制 的 -128 +8+2= -118。 
负数 的 补 码 

负数 的 补 码 很 容易 从 绝对 值 的 反 码 加 1 得 到 ， 例 如 ,， 求 -44 的 8 位 二 进 制 的 补 码 : 




















先 写 出 +44 的 7 位 二 进 制 数 : 010 1100 
然后 ， 各 位 取 反 (得 到 反 码 ): 101 0011 
最 低位 加 1; 101 0100 
最 后 ， 加 上 符号 位 (1 表示 负数 ) : 

1101 0100 


如 果 你 不 习惯 写 二 进 制 数 ， 可 以 试 着 把 它 分 成 4 个 一 组 来 写 。 这 样 就 很 容易 按 列 划 分 ， 并 有 助 于 转 
换 成 十 六 进 制 ( 因为 二 进 制 的 每 4 位 对 应 十 六 进 制 的 1 位 )。 
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无 疑 补 码 比 上 面 提 到 的 一 些 其 他 格式 的 表示 法 更 难 读 懂 , 但 是 相对 于 降低 硬件 复杂 度 来 
说 ， 这 是 一 个 很 小 的 代价 。 框 2.7 给 出 了 补 码 的 一 些 例子 ， 包 括 正 数 和 负数 的 补 码 。 
数 的 转换 示例 
问 1: 写 出 十 进 制 值 23 的 8 位 二 进 制 补 玛 。 
答 1: 我 们 先 写 出 8 位 补 码 每 一 位 的 权 值 ， 从 左 开 始 连同 符号 位 一 起 。 
-128 | 64 JT32 Jié 8 [4 T2 1 
只 有 为 负数 时 才 设 符号 位 ， 本 例 中 是 正 数 ， 所 以 填 0; 接 下 来 ， 看 权 值 为 64 的 位 ， 如 果 我 们 的 数字 
大 于 64 则 会 在 这 位 写 1, 但 23 不 大 于 64， 所 以 这 位 写 0; 同样 ， 看 权 值 为 32 的 位 ， 现 在 写 下 了 : 
lo lo lo jis Ts ls 12 |: | 
到 权 值 为 16 的 位 ， 数 字 23 比 16 大 ， 因 此 我 们 在 23 中 减 掉 16 得 到 余数 23 -16=7， 并 在 权 值 16 这 栏 写 
下 ls 
接 下 来 我 们 再 比较 余数 和 权 值 8， 余数 比 8 小 ， 所 以 在 权 值 8 这 栏 写 0; 再 比较 权 值 4， 余数 大 于 4， 


因此 计算 新 的 余数 为 7-4=3 并 在 权 值 4 这 栏 写 下 1; 按 此 规律 ， 接 着 在 权 值 2 和 1 这 栏 都 写 下 1。 得 到 
的 最 终结 果 是 : 











0 0 0 [i 1 0 1 [i 1 
问 2: 写 出 十 进 制 数 -100 的 8 位 二 进 制 补 码 。 
答 2: 同样 看 上 面 的 这 行 数字 ， 我们 知道 负数 需要 在 权 值 为 -128 的 栏 中 填写 1。 计算 减法 - 100 - 
( -128) 或 -100+128 得 到 余数 28。 后 续 的 计算 正常 进行 一 一 在 权 值 64 这 栏 写 0、32 这 栏 写 0、16 这 
栏 写 1， 得 到 新 余数 28 -16 =12。 继 续 在 权 值 8 这 栏 写 1， 余数 为 4， 在 权 值 4 这 栏 写 1， 其 余 的 位 写 0。 
得 到 : 





EU IE Je | 
注意 ; 对 于 补 码 表示 ， 能 够 一 目 了 然 地 观察 到 该 数 是 否 为 负数 (最 高 位 是 1)， 以 及 是 否 为 奇数 (最 低位 


是 1)。 


2.3.5 移 码 


我 们 后 面 讨论 浮 点 数 的 时 候 会 看 到 移 码 (excess-n) 表示 法 。 该 格式 采用 无 符号 值 w+n 来 
表示 数 v。 例 如 8 位 二 进 制 数 ， 偏 移 量 为 127 的 移 码 表示 法 ， 可 以 表示 - 127 ~ + 128 的 数字 
(以 二 进 制 位 的 方式 存储 ， 看 起 来 就 像 无 符号 数 0 ~255 ) 。 

对 这 种 格式 可 能 需要 进行 一 些 思 考 才 能 正确 理解 ， 查 看 极 值 (分 别 为 最 大 和 最 小 值 ) 的 
方法 有 助 于 我 们 理解 。 考 虑 最 小 值 ，127 偏 移 量 的 移 码 为 8 位 二 进 制 数 00000000b， 对 应 着 十 
进 制 的 - 127。 通 过 计算 数字 的 无 符号 二 进 制 值 〈 在 这 种 情况 下 为 零 ) ， 然 后 减 去 127， 可 以 得 
到 -127。 相 比 之 下 ， 如 果 采 用 无 符号 格式 ， 则 最 大 值 11111111b 将 等 于 +255。 但 是 由 于 我 们 
知道 它 是 偏 移 量 为 127 的 移 码 ， 因 此 我 们 从 255 中 减 去 127 进行 转换 ， 得 到 的 结果 为 255 - 
127 =128。 看 另 一 个 例子 11000010 ， 此 二 进 制 码 的 值 应 该 是 128 + 64 +2 =194, 但 由 于 是 用 偏 
移 量 为 127 的 移 码 表 示 ， 因 此 需要 从 194 中 减 去 127 得 到 十 进 制 的 67。 

要 将 十 进 制 转换 为 偏 移 量 为 127 的 移 码 ， 将 遵循 相反 的 过 程 。 首 先 将 127 添加 到 十 进 制 
数 ， 然 后 写 入 无 符号 二 进 制 。 例 如 ， 将 十 进 制 101 转换 为 偏 移 量 为 127 的 移 码 ， 首 先 得 到 
101 +127 =228 ， 然 后 将 结果 写 为 无 符号 二 进 制 11100100 (4 +32 +64+128)。 

在 不 同 的 专业 计算 领域 中 使 用 了 其 他 移 码 格式 ， 并 且 这 些 格 式 遵循 相同 的 一 般 原 则 ， 但 如 
上 所 述 ， 本 书 中 只 会 遇 到 偏 移 量 为 127 的 移 码 格式 。 
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2.3.6 BCD 码 


BCD (Binary-Coded Decimal) 码 曾 广泛 用 于 早期 的 计算 机 中 。 由 于 每 个 十 进 制 数字 
(0 ~9) 都 对 应 到 BCD 中 由 一 组 4 位 二 进 制 编码 表示 ， 使 得 人 们 使 用 时 很 容易 阅读 。 如 十 进 制 
73 表示 成 BCD 码 就 是 0111 0011。 由 于 4 位 二 进 制 可 以 表示 0 ~ 15 的 值 , 但 是 每 四 个 一 组 的 
BCD 码 仅 存储 十 进 制 值 0 到 9， 因 此 还 有 一 些 二 进 制 模式 在 BCD 中 从 未 使 用 过 。 最 终 ，BCD 已 
被 主流 所 取代 ， 因 为 它 的 存储 效率 不 高 ， 也 不 容易 为 其 设计 硬件 。 但 是 ， 在 一 个 领域 ，BCD 是 
通用 的 ， 就 是 在 七 段 显示 器 〈 即 数字 译 码 管 ) 上 输出 LED 和 LCD 数字 。 这 种 显示 器 的 驱动 器 
IC 通常 要 求 以 BCD 格式 输出 数据 。 


2. 3.7 定点 数 表 示 法 


二 进 制 和 十 进 制 格式 都 可 以 用 于 存储 小 数 (请 参见 框 2. 8) ， 但 是 我 们 将 仅 考虑 无 符号 数 
和 两 个 补 码 ， 因 为 它们 是 计算 机 体系 结构 领域 中 最 常见 的 数字 。 定 点 数 有 严格 的 概念 。 书 面 数 
字 看 起 来 与 其 他 二 进 制 数字 相同 ， 但 对 位 加 权 的 解释 有 所 变化 ， 最 低位 是 权 值 2 ， 下 一 位 是 
2 ,第 三 位 是 2 ， 依 次 类 推 。 在 一 些 数字 信和 号 处 理 (DSP) 电路 中 ， 定 点 数 表示 法 也 被 称 为 
Q 格式 。 定 点 数 表示 法 通常 用 〈(m.m) 的 格式 描述 ， 其 中 m 是 假定 的 基 之 前 的 位 数 〔 十 进 制 的 
基 称 为 小 数 点 ， 但 在 处 理 其 他 进 制 的 数 时 ， 我 们 不 能 称 它 为 一 个 “十 进 制 ” 小 数 点 ， 所 以 我 
们 称 它 为 基 (radix) ), n 是 基 (小 数 点 ) 后 面 的 位 数 。 因 此 ， 这 种 情况 下 定点 数 的 位 宽 为 
m+no 
i 于 夫 漠 二 进 制 是 一 种 定点 数 格式 吗 

二 进 制 并 没有 什么 特殊 的 ， 它 只 是 基数 为 2 的 一 种 表示 数 的 方式 ,而 不 是 我 们 熟悉 的 基数 为 10 的 方 
式 (十 进 制 )。 

我 们 用 十 进 制 可 以 像 写 整数 (如 19) 那样 写 小 数 (如 9.54)， 同 样 我 们 可 以 用 任何 其 他 基数 表示 方 
式 像 写 整数 格式 那样 写 定点 数 格式 。 到 目前 为 止 我 们 只 看 到 了 整数 的 二 进 制 格式 ， 然 而 二 进 制定 点 数 格 
式 也 非常 重要 ， 它 被 广泛 用 于 如 数字 信号 处 理 领 域 。 

两 个 8 位 的 二 进 制 数 按照 无 符号 格式 和 “(6.2) 格式 分 别 表示 如 下 : 





(6.2 ) 格式 


更 多 二 进 制定 点 数 格式 的 例子 可 参考 框 2.9。 

无 符号 数 或 补 码 的 定点 数 表示 的 好 处 是 在 硬件 实现 上 对 其 值 的 处 理 和 对 非 定 点 数 表示 的 处 
理 方式 一 样 ， 小 数 点 只 是 在 程序 上 的 假设 而 已 。 这 意味 着 任何 二 进 制 加 法 器 、 乘 法 器 或 移 位 器 
都 可 以 添加 小 数 点 ， 乘 法 或 移 位 小 数 与 无 符号 数 一 样 (实际 上 硬件 永远 不 会 “知道 ”数字 是 
不 是 小 数 ， 一 般 只 有 程序 员 需 要 跟踪 哪些 数字 是 小 数 ， 哪 些 不 是 ) 。 
定点 数 格式 实例 

问 : 把 十 进 制 数 12. 625 改写 成 一 个 (7.9) 定点 数 格式 的 二 进 制 补 码 。 

答 : 首先 确定 (7.9) 格式 的 每 一 位 位 权 : 


-ls [ac]s T4 [2 Ti 14lsl [| LI 


这 里 由 于 空间 原因 位 权 低 于 1/8 的 已 经 被 删除 了 。 接 下 来 ， 因 为 是 正 数 ， 所 以 权 值 为 -64 的 这 一 位 写 0。 
然后 ， 按 照 标准 补 码 表示 (或 无 符号 数 ) 的 方式 从 左 向 右 依 次 扫描 每 一 位 ， 使 用 上 面 给 出 的 权 值 。 
得 到 12. 625 =8 +4+0.5+0.125， 因 此 结果 为 : 








L30 | 


[3 
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2.3.8 符号 扩展 


符号 扩展 是 指 将 一 个 指定 宽度 的 有 符号 补 码 数 的 位 宽 扩 大 。 例 如 ， 把 一 个 8 位 的 数字 转换 
为 16 位。 虽然 由 程序 员 显 式 指定 该 操作 只 是 偶尔 发 生 ， 但 在 加 法 或 乘法 运算 中 却 是 很 常见 的 


一 个 操作 。 
可 以 通过 把 一 个 4 位 补 码 转 换 为 8 位 的 例子 来 解释 什么 是 符号 扩展 。 首 先 ， 写 下 4 位 二 进 
制 补 码 数 1010。 


如 果 考 虑 是 有 符号 数 ， 我 们 知道 4 位 数 的 位 权 分 别 是 [ -8,， 4，2，1] ， 而 8 位 数 的 位 权 

分 别 是 [-128，64,， 32，16，8, 4，2，1]。 对 于 4 位 数 来 讲 ，1010 的 值 显然 是 
-8+2= -6 

如 果 变 成 8 位 数 时 只 是 简单 地 在 4 位 数 前 面 补 0， 即 00001010 ,那么 对 照 这 8 位 数 的 权 值 

来 看 ， 这 个 值 就 是 
8 +2=10 

结果 显然 是 错 的 。 如 果 注 意 到 负数 需要 设置 符号 位 ， 进 而 简单 地 把 符号 位 变 为 1， 即 

10001010， 那 么 这 个 值 又 变 为 
=128484+2s.=118 

结果 还 是 错 的 。 实 际 上 ， 为 了 能 够 正确 地 从 4 位 扩展 到 8 位 ,不 仅 需 要 将 最 高 的 符号 位 设 
置 正确 ， 而 且 每 一 个 增加 的 位 (原始 数据 MSB 位 左边 的 每 一 位 ) 都 必须 设置 成 和 原始 数据 的 
MSB 位 相同 。 因 此 符号 位 被 扩展 得 到 11111010， 其 值 为 

—128 +64+32+16+8+2= -6 

得 到 了 正确 的 结果 。 符 号 扩展 的 男 一 个 例子 在 框 2.10 中 给 出 。 
符号 扩展 实例 

间 : 写 出 -4 的 4 位 补 码 表示 ， 把 MSB 位 向 左 复制 4 次 ,然后 读 出 该 8 位 补 码 的 结果 。 

答 : 1100( -8+4+0+0) 

MSB 位 是 1， 向 左 复制 4 次 得 到 11111100。 

读 出 这 个 8 位 有 符号 数 : ( -128 +64 +32 +16 +8+4) = -4。 

进一步 思考 ; 对 一 个 正 数 (如 3) 重复 上 述 练习 。 该 方法 是 否 同样 适用 于 正 数 ? 

对 于 正 数 补 码 来 说 ， 符 号 扩展 显然 没有 难度 ,但 此 规则 仍然 适用 ( 它 没有 任何 影响 ， 却 使 
硬件 设计 变 得 简单 ， 因 为 该 规则 适用 于 所 有 的 数 而 不 是 部 分 的 数 ) 。 


2.4 算术 运算 


本 节 讨 论 能 够 执行 两 个 二 进 制 数 加 法 和 减法 运算 的 硬件 。 几 乎 所 有 的 处 理 器 ， 此 功能 都 是 
由 算术 逮 辑 单元 (ALU) 完成 的 ， 它 同时 也 处 理 与 (AND)、 或 (OR)、 非 (NOT) 等 基本 的 
逻辑 运算 。ALU 作为 CPU 的 功能 单元 将 在 后 面 的 4.2 节 讲 述 。 


2.4.1 加 法 


二 进 制 运算 是 按 位 完成 的 ， 相 邻 的 低位 计算 可 能 会 产生 进位 。 在 硬件 上 ， 一 个 全 加 器 完成 
两 个 加 数位 和 一 个 进位 输入 的 加 法 ， 产 生 一 个 带 进位 输出 的 结果 。 

图 2-3 是 一 个 全 加 器 的 符号 示意 图 ， 其 中 每 个 箭头 代表 一 个 逻辑 位 。 半 加 器 与 其 类 似 ， 但 
没有 进位 输入 。 


2. 4.2 并 行进 位 传递 加 法 器 
要 构建 一 个 8 位 并 行 加 法 器 ， 通 常 使 用 8 个 全 加 器 ， 每 一 个 输入 位 对 应 一 个 ， 尽 管 至 少 有 
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一 个 最 低位 可 以 使 用 稍微 简单 的 半 加 器 ， 并 行 加 法 器 如 图 2-4 所 示 。 





YY x7 y7 x6 y6 x5 y5 x4 y4 x3 y3 x2 y2 xl yl x0 y0 
che 
Zz 
图 2-3 一 个 全 加 器 ， 两 个 输入 位 和 一 图 2-4 进位 传递 加 法 器 或 行 波 进位 加 法 器 ， 
个 进位 输入 相 加 ， 得 到 一 位 输 由 一 串 全 加 器 和 一 个 半 加 器 构成 
出 和 进位 输出 


在 图 2-4 中, x[7:0] 和 y[7:0] 表示 两 个 字 节 的 输入 ，z[7:0] 表示 一 个 字 节 的 输出 ， 
C, 是 最 终 的 进位 。 对 于 无 符号 数 的 加 法 ， 当 C,, 为 1 时 表示 计算 的 结果 超出 了 8 位 的 表示 。 例 
如 ， 我 们 知道 8 位 能 表示 的 最 大 无 符号 数 是 2 -1=255， 如 果 两 个 较 大 的 数 ， 如 200 和 100 相 
加 ， 结 果 (300) 就 无 法 用 8 位 来 表示 。 这 种 情况 下 ， 进 位 就 会 被 置 1， 并 且 结 果 的 值 (z) 为 
余数 300 -256 =44。 

因此 ， 最 前 面 的 C,, 同 时 用 作 无 符号 数 溢出 标志 : 如 果 计 算 完 成 后 它 被 设置 为 1， 表 明 当 
前 的 加 法 器 位 数 不 够 表示 其 结果 。 进 一 步 的 考虑 见 框 2. 11。 
读者 练习 

当 进行 有 符号 数 的 补 码 加 法 时 ， 最 高 位 的 Ci 信号 将 会 怎样 变化 ? 

1) 试 着 手 算 一 个 4 位 的 加 法 器 ，4 位 补 码 表示 数 的 范围 为 -8 ~ +7。 

2) 试 着 计算 一 些 加 法 : 2+8=?; 2+( -8)=?; 7+7=?; (-8)+(-8)=?。 

3) 你 对 C。。 信 号 有 何 结论 : 对 有 符号 数 加 法 ， 其 意义 和 无 符号 数 加 法 一 样 吗 ? 

这 种 加 法 机 制 在 几乎 所 有 的 二 进 制 加 法 器 中 都 较 常 见 。 虽 然 并 行 加 法 器 似乎 是 一 个 相对 高 
效 的 结构 ， 甚 至 和 人 们 手工 〈 或 者 使 用 算盘 ) 计算 二 进 制 加 法 的 方式 很 相似 ， 但 它 面 临 的 问 
题 就 是 进位 传递 的 速度 非常 受 限 ， 这 阻碍 了 它 在 大 多 数 微 处 理 器 ALU 中 的 使 用 。 

鉴于 加 法 器 的 两 个 输入 数据 是 同时 给 出 的 ， 那么 加 法 器 的 速度 可 以 通过 计算 其 输出 所 用 的 
时 间 长 短 来 衡量 。 加 法 链 中 的 每 个 全 加 器 或 半 加 器 相对 是 较 快 的 : 〈 现 在 的 硬件 系统 中 ) 给 出 
输入 数据 和 进位 输入 后 几 个 纳 秒 即 可 得 到 进位 输出 和 结果 。 问 题 是 ， 最 低位 的 半 加 器 
(adder 0) 必须 在 下 一 位 的 计算 (adder 1) 开始 之 前 就 完成 计算 ， 因为 adder 1 需要 adder 0 提 
供 进位 才 可 以 完成 其 计算 ， 而 该 进位 只 有 当 adder 0 计算 结束 时 才 有 效 。 然 后 adder 1 再 把 它 计 
算得 到 的 进位 提供 给 adder 2， 依 次 类 推 。 进 一 步 沿 着 加 法 链 向 前 传递 ， 在 输入 进入 加 法 器 相当 
长 一 段 时 间 后 ，adder 6 才能 将 其 产生 的 进位 提供 给 adder 7。 

一 个 完整 的 行 波 进位 加 法 器 的 传输 延迟 计算 实例 见 框 2. 12。 这 一 点 很 重要 ， 因 为 如 果 加 法 
器 是 在 一 个 同步 系统 中 ,那么 传输 延迟 将 成 为 系统 的 一 部 分 而 限制 系统 的 最 大 时 钟 频率 。 
实例 

问 : 一 个 4 位 并 行进 位 传递 加 法 器 的 全 加 器 和 半 加 器 如 下 : 

从 前 一 个 数据 输入 (x 或 y) 或 进位 输入 到 结果 z 的 时 间 : 1Sns 

从 前 一 个 数据 输入 (x 或 y) 或 进位 输入 到 进位 输出 的 时 间 : 12ns 

如 果 输 入 的 加 数 x[3:0] 和 y[3:0] 在 时 刻 0 给 出 并 稳定 住 ， 经 过 多 长 时 间 加 法 器 可 以 产生 稳定 而 
正确 的 4 位 输出 ? 

答 : 从 加 法 链 尾 部 的 最 低位 开始 ，adder 0 在 时 刻 0 接收 到 稳定 的 输入 ， 其 结果 z 在 1Sns 后 准备 好 ， 
进位 在 12ns 后 得 到 。adder 1 需要 低位 的 进位 才能 开始 计算 ， 所 以 在 12ns 时 刻 才 能 开始 ， 需 要 24ns 后 才 
能 产生 给 adder 2 的 正确 进位 ， 这 样 给 adder 3 的 进位 输入 需要 在 36ns 时 刻 得 到 。 然 后 adder 3 开始 加 法 计 
算 ， 它 的 输出 z 将 在 5lns(36ns +15ns) 时 刻 完 成 ， 而 进位 输出 在 48ns(36ns +12ns) 时 刻 完成 。 因 此 尽 
管 这 些 一 位 加 法 器 本 身 很 快 ， 但 当 连 成 链 后 ， 需 要 51lns 才能 计算 出 结果 。 

注意 : 读者 对 前 面 提 到 的 全 加 器 或 半 加 器 “开始 计算 ”可 能 会 产生 一 点 误解 。 实 际 上 它们 都 是 组 合 











逻辑 模块 ， 输 入 状态 的 任何 一 个 变化 都 会 在 某 个 延迟 时 间 (本 例 中 最 多 15ns) 后 改变 输出 。 因 为 是 组 合 
逻辑 ， 所 以 电路 一 直 保持 对 输入 数据 进行 处 理 ， 并 且 输 出 也 一 直 是 激活 的 。 然 而 ， 根 据 规 则 ， 我 们 知道 
只 有 在 给 出 正确 的 输入 15ns 和 12ns 后 (分 别 对 应 结果 zz 和 进位 输出 ) ， 输 出 数据 才能 保证 正确 。 


2. 4. 3 超前 进位 


为 了 加 速 前 面 提 到 的 并 行 加 法 器 ， 一 种 方法 是 对 加 法 链 上 的 每 个 加 法 器 都 尽早 给 出 进位 输入 。 

可 以 进行 进位 预测 ， 这 是 一 块 能 够 直接 计算 输出 进位 值 的 组 合 逻 辑 。 实 际 上 ， 它 可 以 同时 
为 加 法 链 上 的 每 一 个 加 法 器 提供 进位 值 ， 其 传输 延迟 和 一 个 单独 的 半 加 器 差不多 。 图 2-5 是 一 
个 3 位 加 法 器 的 进位 预测 逻辑 。 注 意 描述 这 b(1) a(1) b(0) a(o0) 
些 超前 进位 单元 的 逻辑 方程 的 形成 是 很 有 
意义 的 〈 见 框 2. 13) 。 
读者 练习 

1) 写 出 一 位 全 加 绒 的 逻辑 方程 。 

2) 扩展 到 上 面 提 到 的 3 位 加 法 器 。 Co 

3) 重新 写 出 C 和 C, 的 方程 ， 只 根据 输入 
产生 (而 不 使 任何 一 个 进位 输入 ) 。 注 意 产生 Ci ee 
所 需 的 基本 运算 数量 较 少 ， 因 此 完成 此 计算 所 需 图 2-5 超前 进位 加 法 器 由 几 个 全 加 器 
的 门 器 件 传输 延迟 也 较 小 。 WE 

4) 扩展 到 推导 C, 的 方程 ， 需 要 多 少 计算 步骤 ? 是 不 是 比 C， 的 多 ? 对 于 更 长 的 加 法 链 ， 你 能 不 能 推 
断 出 这 种 方法 的 规律 (从 传输 延迟 和 避 辑 复杂 性 方面 考虑 )? 


2.4.4 减法 


和 加 法 类 似 ， 减 法 也 是 按 位 计算 的 。 当 执行 减法 运算 时 ， 我 们 是 否 需 要 通过 相 邻 位 来 考虑 
结果 ? 答案 是 需要 ， 但 这 里 都 是 从 高 位 的 借 位 ， 而 不 是 从 低位 的 进位 。 这 种 借 位 存在 和 加 法 类 
似 的 问题 。 

考虑 到 硬件 的 可 计算 性 ， 如 果 不 是 加 法 和 减法 可 以 互相 转换 (在 多 种 数字 格式 中 ) ， 就 会 
需要 一 个 专门 的 减法 器 。 例 如 ， 一 个 十 进 制 的 计算 99 -23 =76， 可 以 重新 写成 99 + ( -23)， 
得 到 相同 的 结果 。 

虽然 结果 是 相同 的 ， 但 它 是 通过 计算 加 法 而 不 是 减法 来 得 到 结果 ， 而 且 第 二 个 操作 数 的 符 
号 改变 了 (在 硬件 电路 中 更 容易 实现 ) 。 许 多 商业 ALU 的 工作 方式 都 比较 类 似 : 只 包含 一 个 加 
法 电路 和 一 个 操作 数 的 符号 转换 机 制 。 在 2. 3. 4 节 我 们 看 到 ， 改 变 一 个 数 的 补 码 表示 的 符号 非 
常 简单 ， 先 各 位 取 反 在 未 位 (LSB) 加 1， 末 位 加 1 相当 于 把 那个 加 法 器 的 进位 输入 置 1。 

减法 很 容易 在 硬件 电路 中 实现 ， 如 图 2-6 所 示 。 在 这 个 电路 中 ， 输 入 操作 数 y 经 过 异 或 门 
用 来 完成 按 位 取 反 ( 异 或 就 像 一 个 取 反 开关 ， i 
如 果 一 个 输入 端 为 高 电 平 ， 那么 另 一 个 输入 
端的 每 一 位 将 被 取 反 ， 否 则 维持 不 变 ， 见 附 
录 B)。 如 果 电 路 执行 减法 ， 则 add/subtract 线 
保持 高 电 平 ， 减 数 被 取 负 ， 且 高 电 平 有 效 ， 
从 而 实现 未 位 加 1 的 效果 。 

执行 减法 时 还 有 一 块 逻 辑 需 要 介绍 一 下 ， 
就 是 溢出 : 进行 加 法 运算 时 ， 可 以 使 用 最 高 vt (yl bia 
位 的 进位 C,, 作 为 溢出 标志 。 但 这 在 减法 运算 图 2-6 ”减法 逻辑 主要 包括 一 个 
中 却 不 可 行 ， 我 们 通过 下 面 的 4 位 补 码 的 例 带 异 或 门 的 加 法 器 






b(1) al(l) aa(0) 





b (2) a(2) 





b(0) 


z(2) z(1) z(0) 


处 "位 总 结 


个 单个 线 
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子 来 具体 阐明 : 
0010 +1110 =? 2+( -2)=? 
0010 +1110 =0000 + C,, 
显然 结果 应 该 是 零 没 有 溢出 ,但 是 最 高 位 进位 Cu。 也 被 置 位 。 再 看 一 个 本 应 有 溢出 的 例子 : 
0111 +0110=? 7+6=? 
0111 +0110 =1101 结果 = -3? 
结果 是 -3 还 是 不 对 ， 应 该 是 13。 由 此 可 见 ， 只 用 C,, 来 判断 的 电路 显然 不 够 ， 还 应 考虑 
到 处 理 过 程 中 值 的 变化 。 应 该 在 加 之 前 检测 符号 位 ， 在 此 基础 上 再 对 结果 进行 检测 。 这 个 计算 
量 并 不 大 ， 进 行 一 个 简单 的 查找 表 操 作 即 可 : 
正 数 + 正 数 = 正 数 
正 数 + 负数 = 符号 未 知 
负数 + 正 数 = 符 号 未 知 
负数 + 负数 = 负数 
对 于 两 个 异 号 数 (一 个 正 数 和 一 个 负数 ) 的 计算 ， 结 果 的 符号 位 是 未 知 的 ， 但 却 不 会 产 
生 溢出 的 问题 (可 以 这 样 考虑 : 相 加 后 负数 会 使 正 数 的 值 变 小 ， 唯 一 不 会 变 小 的 情况 就 是 正 加 
数 是 零 ， 那 结果 就 是 输入 的 负 加 数 ， 其 输入 数据 本 身 不 包含 进位 标志 ) 。 
让 我 们 考虑 一 些 4 位 二 进 制 补 码 有 符号 数 计算 的 例子 ， 并 检查 进位 (C) 和 溢出 〈V) 标 
志 的 作用 。 
0111 + 1000 
这 是 一 个 标志 位 不 会 游 出 的 例子 ， 其 中 对 一 个 正 数 和 一 个 负数 执行 二 进 制 加 法 ， 得 到 
0111 +1000=1111 
从 符号 位 看 ， 得 到 的 是 正 + 负 = 负 。 转 换 为 十 进 制 ， 得 到 的 结果 为 7-8= -1， 这 显然 是 正确 的 。 
0111 +0100 
这 次 使 用 的 是 两 个 正 数 ， 所 以 需要 仔细 检查 结果 的 符号 位 。 结 果 如 下 : 
0111 +0100 =1011 
但 结果 是 负 的 (设置 了 MSB 或 “符号 位 ”)。 这 似乎 不 正确 一 一 将 一 个 正 值 添加 到 另 一 个 正 值 上 应 
该 得 到 一 个 为 正 的 答案 ( 即 应 该 给 一 个 0 的 符号 位 ) ， 但 在 这 种 情况 下 ， 得 到 一 个 负数 的 结果 ， 没 有 进 
位 。 转 换 为 十 进 制 ， 结 果 是 7+4= -5， 这 肯定 不 是 所 期 望 的 结果 。 
事实 证 明 ，CPU 设计 人 员 可 以 在 溢出 (V) 标志 中 找到 解决 方案 。 该 标志 正 是 上 面 确定 的 ， 并 指示 
输出 结果 的 符号 位 何 时 是 意外 的 。 对 于 两 个 正 数 相 加 的 情况 ， 结 果 的 符号 位 应 为 0。 如 果 不 是 ， 则 发 生 
溢出 并 且 将 设置 V 标志 。 
对 于 两 个 负数 的 情况 ,结果 的 符号 位 应 为 1， 如 果 不 是 ， 则 发 生 了 溢出 ， 因 此 也 将 设置 V 标志 。 下 
表 提 供 了 4 位 计算 的 更 多 示例 ， 并 且 显 示 了 V 和 C 标志 : 



































操作 数 A 操作 数 B 结果 A+B V 标志 
0000 0000 0000 0 
时 证 ee 
0100 0011 0111 a 0 
1111 | 1111 1110 1 0 
0111 | 0111 1110 0 1 
0100 | 1000 1100 0 0 
un 000l 0000 | 0 
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编程 视角 

上 表 中 ， 二 进 制 的 计算 都 是 正确 的 ， 这些 都 是 纯 二 进 制 文件 ， 可 以 由 任何 计算 机 的 ALU 
直接 简单 地 计算 出 来 。ALU 不 知道 操作 数 是 无 符号 的 还 是 有 符号 的 ， 只 有 程序 员 才 知道 。 因 
此 ， 程 序 员 有 责任 编写 一 个 程序 ， 在 计算 后 检查 V 或 C 标志 。 如 果 操 作 数 是 二 进 制 补 码 ， 则 应 
检查 V 标志 ， 而 如 果 它 们 是 无 符号 二 进 制 ， 则 应 检查 C 标志 。 

为 了 进一步 说 明 这 一 点 ， 请 考虑 表 中 显示 的 第 4 个 操作 ，1111+1111 =C+1110。 如 果 操 
作 数 是 无 符号 的 ， 程 序 员 需 要 在 计算 后 查看 C 标志 。 在 这 种 情况 下 ， 如 果 C 标志 位 被 改变 ， 表 
示 加 法 的 结果 太 大 而 不 能 用 4 位 表示 。 但 是 ， 如 果 操 作 数 是 带 符号 的 二 进 制 补 码 ， 则 程序 员 需 
要 在 加 法 后 查看 V 标志 。 在 这 种 情况 下 ，YV 标志 位 并 未 置 1， 表 示 结 果 可 以 用 四 位 表示 。 它 是 
否 正确 ? 下 面 一 起 来 看 一 看 。 

使 用 无 符号 表示 ， 十 进 制 值 下 1111b =15， 然 后 15 +15 =30， 因 数值 太 大 而 不 能 用 4 位 显 
示 ， 所 以 将 进位 标识 符 置 1。 但 是 如 果 使 用 二 进 制 补 码 表 示 ， 十 进 制 1111b = - 1， 然后 
(-1)+(-1) = -2， 这 很 容易 用 4 位 表示 。 带 符号 的 二 进 制 结果 1110b = -2， 这 是 正确 的 。 
在 各 种 情况 下 ，ALU 、 二 进 制 输入 和 二 进 制 输出 都 保持 不 变 。 这 完全 取决 于 这 些 二 进 制 数字 代 
表 什么 ， 以 及 程序 员 是 否 检查 V (使 用 有 符号 的 操作 数 的 时 候 ) 或 C (使 用 无 符号 操作 数 时 ) 


标志 。 


2.5 乘法 : 


在 早期 的 微 处 理 器 时 代 , 在 CPU 内 部 用 逻辑 实现 乘法 太 复 杂 ， 都 是 采用 外 部 单元 实现 。 
即使 当 它 终于 挤 进 同一 块 硅 片 中 时 ， 也 非常 拥挤 : 在 早期 的 ARM 处 理 器 上 ， 乘 法 硬件 占用 的 
硅 片 面积 超过 整个 ARM CPU 核 。 

后 来 ， 厂家 调整 了 乘法 的 目标 应 用 。 对 快速 实时 租 入 式 处 理 右 (可 能 是 一 个 处 理 CSM 手 
机 语音 编码 的 ARM7 ) ， 需 要 尽 可 能 快 地 执行 乘法 ， 从 而 有 了 高 速 乘法 器 。 相 比 于 非 实 时 处 理 
器 上 低速 、 多 周期 的 乘法 器 来 说 ， 这 显然 会 占用 相当 大 的 硅 片面 积 。 

有 很 多 种 方法 可 以 实现 m xn 的 乘法 运算 ， 各 有 不 同 的 效率 和 不 同 的 复杂 度 。 典 型 的 方法 
有 以 下 几 种 : 

。 加 法 迁 代 〈 将 严 累 加 半 次 )。 

。 部 分 积 移 位 加 。 

。 将 n 拆 分 成 一 系列 数 的 加 法 ， 再 对 m 左 移 。 

e Booth 和 Robertson 方法 。 

每 一 种 方法 都 会 在 下 面 的 小 节 中 讨论 。 当 然 还 有 更 深奥 的 方法 ， 因 为 这 是 一 个 活跃 的 研究 
领域 。 有趣 的 是 还 有 一 些 方 法 是 通过 估 值 而 不 是 计算 来 实现 乘法 ,或 者 是 以 损失 精度 为 代价 。 
比如 ， 将 操作 数 转换 到 对 数 域 再 通过 加 来 实现 ， 或 者 使 用 替代 数字 格式 或 余数 格式 。 

蔡 代 数字 格式 会 在 12. 4 节 简 要 介绍 ， 但 当 使 用 这 样 的 硬件 执行 二 进 制 计算 时 ， 有 太 多 种 
替代 以 致 无 法 把 它们 全 部 描述 出 来 。 


2.5.1 加 法 迭代 法 


实现 乘法 最 简单 的 方法 也 是 实现 复杂 度 和 芯片 面积 最 小 的 方法 ， 但 这 是 以 慢 为 代价 的 。 整 
数 相 乘 〈 冯 xz) 的 伪 代 码 看 起 来 就 像 : 
Set register A 全 m 
set register B¢— 0 
loop while(A 二 A-1D 三 0 
B+ B+n 
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由 于 包含 一 个 n 次 的 循环 ， 执 行 时 间 就 会 和 nn 相关。 如 果 n 比较 小 ， 那 么 结果 B 就 会 早点 计算 出 来 。 
如 果 我 们 考虑 一 个 32 位 整数 ， 它 可 以 表示 超过 40 亿 的 值 ， 那 就 会 需要 很 多 次 的 循环 迭 
代 ， 这 意味 着 一 个 相当 长 的 执行 时 间 。 


2.5.2 部 分 积 方法 


与 基于 nn 的 大 小 进行 交互 (如 上 面 介绍 的 加 法 迭代 方法 ) 不 同 ， 部 分 乘积 方法 基于 n 的 位 
数 进行 迭代 。 
对 数字 n 的 每 一 位 依次 进行 检查 ， 从 最 低位 到 最 高 位 ， 如 果 这 一 位 是 1， 将 m 左 移 到 检测 
为 1 的 这 一 位 对 齐 ， 将 得 到 的 部 分 积 进行 累加 。 在 乘法 术语 中 ， 这 两 个 数 称 为 乘 数 和 被 乘 数 ， 
尽管 我 们 知道 对 于 十 进 制 数 ， 无 论 谁 做 乘 数 结果 都 是 一 样 的 ， 即 m x n=n xm。 
下 面 是 一 个 部 分 积 的 例子 : 
1001 被 乘 数 9 
1011 ” 乘 数 11 
1001 (由 于 乘 数 的 第 0 位 =1， 将 9 左 移 到 与 第 0 位 对 齐 ) 
1001 (由 于 乘 数 的 第 1 位 =1， 将 9 左 移 到 与 第 1 位 对 齐 ) 
0000 (由 于 乘 数 的 第 2 位 =0， 将 0 左 移 到 与 第 2 位 对 齐 ) 
1001 (由 于 乘 数 的 第 3 位 =1， 将 9 左 移 到 与 第 3 位 对 齐 ) 
01100011 乘积 结果 =99 (部 分 积 的 累加 和 ) 
如 果 要 进行 带 符号 整数 的 补 码 运算 ， 情 况 会 稍微 复杂 一 些 ， 首 先 乘 数 的 最 高 位 是 符号 位 ， 
其 次 会 用 到 符号 扩展 ( 见 2.3.4 节 )。 
对 于 有 符号 的 情况 ， 所 有 的 部 分 积 都 需要 符号 扩展 ， 将 其 扩展 到 乘积 的 位 宽 (由 于 符号 位 
占 1 位， 所 以 默认 是 两 个 输入 数据 的 长 度 相 加 再 减 1， 例如， 一 个 6 位 的 有 符号 数 加 上 7 位 的 
有 符号 数 将 需要 12 位 来 表示 结果 ) 。 
如 果 每 个 部 分 积 对 应 乘 数 的 一 位 ， 且 根据 乘 数 的 位 权 进 行 移 位 ， 那 么 最 高 有 效 位 ( MSB) 
对 应 的 部 分 积 是 一 个 特殊 的 情况 : 位 的 权 值 为 负 ， 因 此 ， 这 个 部 分 积 必须 从 累加 和 中 减 去 而 不 
是 加 上 。 图 2-7 显示 了 这 个 流程 图 ， 其 中 假设 灰色 的 补 码 累 加 模块 能 够 完成 符号 扩展 。 


入 口 ，M 是 被 乘 数 ， 
Q 是 乘 数 ( 均 为 "位 ) ， 
结果 放 在 寄存 器 A 中 ( 2n 位 ) 















A=A+(M<<cound) x Qfeount] | 
注意 减法 : Q 的 MSB 位 
是 其 符号 位 


A=A-M<<m) x Qn] 







ET 


~ 
N 
~ 
~ 
~ 


灰色 框 中 的 一 位 
乘 由 累加 切换 功能 
简单 实现 < 


图 2-7 部 分 积 乘 法 流程 图 
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为 了 更 好 地 理解 这 一 过 程 ， 最 好 是 用 这 种 方法 动手 计算 几 个 简单 的 二 进 制 乘法 的 例子 ， 读 
者 可 以 仿照 框 2. 14 中 的 例子 完成 。 
补 码 乘 法 实例 
例如 ，-Sx4 (有 符号 数 ) : 
1011 被 乘 数 -5 
0100 ” 乘 数 4 
00000000 (由 于 乘 数 第 0 位 =0， 将 0 左 移 0 位 ， 且 符号 扩展 ) 
+0000000 (由 于 乘 数 第 1 位 =1, 将 0 左 移 1 位 ， 且 符号 扩展 ) 
+111011 (由 于 乘 数 第 2 位 =0, 将 -5 左 移 1 位 ， 且 符号 扩展 ) 
+ 00000 (由 于 乘 数 第 3 位 =0,， 将 0 左 移 1 位 ， 且 符号 扩展 ) 
=11101100 ”结果 = -128+64+32+8+4= -20 
类 似 地 ， 我 们 再 看 4x ( -5) (有 符号 数 ) : 
0100 ”被 乘 数 4 
1011 乘 数 -5 
00000100 ”( 由 于 乘 数 第 0 位 =1, 将 4 左 移 0 位 ， 且 符号 扩展 ) 
+0000100 (由 于 乘 数 第 1 位 =1， 将 4 左 移 1 位 ， 且 符号 扩展 ) 
+ 000000 (由 于 乘 数 第 2 位 =0, 将 0 左 移 2 位 ， 且 符号 扩展 ) 
-00100 (由 于 乘 数 第 3 位 =1， 将 0 左 移 3 位， 且 符 号 扩展 ) 
=11101100 ”结果 = -128+64+32+8+4= -20 
但 是 此 例 中 最 后 一 行 运算 是 减法 ， 我 们 可 以 对 要 减 的 数 连同 符号 位 一 起 各 位 取 反 再 加 工 〈00100000 一 
取 反 一 11011111 一 +1 一 11100000)， 然 后 再 把 它 和 其 他 的 部 分 积 相 加 即 可 ， 如 下 : 
00000100 
+0000100 
+000000 
+11100 
=11101100 结果 = 一 
我 们 看 到 结果 都 是 一 样 的 。 至 此 我 们 讨论 了 需要 符号 扩展 的 情况 ， 以 及 当 乘 数 为 负 时 所 引起 的 最 后 
一 行 部 分 积 变 加 为 减 的 情况 。 
实际 上 ， 反 方向 进行 部 分 积 的 累加 〈 即 向 下 循环 而 不 是 向 上 循环 ) 可 能 会 更 有 效 。 最 好 
的 情况 是 不 需要 以 不 同方 式 处 理 乘 数 符 号 位 的 部 分 积 〈 因 为 这 并 不 是 累加 ， 它 只 是 加 法 运算 之 
前 累加 器 中 的 值 ， 从 而 使 得 其 符号 标志 在 数据 加 载 时 就 被 处 理 掉 ) 。 
图 2-8 中 的 框图 描述 了 仅 用 于 无 符号 数 的 另 一 种 部 分 积 乘法 器 方法 〈 此 方法 较 容 易 扩 展 为 
补 码 格式 ) ， 图 中 给 出 了 设置 (加载 操作 数 ) 完成 后 各 操作 的 执行 顺序 。 













2. 如 果 B0=1 则 触发 | | 位 和 


号 加 器 | | 
te CC ws | 
人 Wir) pf / ft 测试 位 


tN 1) ER 
(2n+1) 位 寄存 器 


最 终结 果 
图 2-8 用 累加 器 实现 的 有 符号 数 部 分 积 乘法 器 位 级 框图 
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在 设置 阶段 ， 将 累加 器 的 输出 端 Q 复位 为 零 ， 把 乘 数 和 被 乘 数 加 载 到 正确 位 置 ; 测试 乘 数 
的 最 低位 (步骤 1); 如 果 是 1〈 步 又 2) ， 则 将 被 加 数 加 到 累加 器 〈 步 又 3) ; 不 管 前 面 两 个 步 
又 是 否 满足 条 件 ， 都 将 整个 累加 器 右 移 一 位 〈 步 骤 4) 。 系 统 循环 n 次 (该 控制 逻辑 没有 画 出 ) 
结束 ， 将 结果 保存 在 一 个 长 寄存 器 中 。 

比较 此 方法 和 图 2-7 中 流程 图 的 不 同 ， 涉 及 寄存 器 个 数 、 总 线 宽度 、 连 接 、 开 关 、 加 法 器 
大 小 以 及 控制 逻辑 各 方面 。 

有 趣 的 是 ， 这 种 乘法 运算 方法 也 包括 右 移 方法 (表示 一 个 数 除 以 2) ， 据 说 已 经 使 用 了 几 
百年 ， 有 人 用 此 方法 轻松 地 计算 相当 复杂 的 十 进 制 乘法 。 该 算法 首先 是 将 待 乘 的 两 个 数 A 和 了 BB 
分 别 写 在 两 列 的 标题 栏 上 。 我 们 以 31 乘 以 17 作为 例子 : 

上 三 到 = 让 

从 上 向 下 写 ， 每 一 行 都 将 B 的 值 除 以 2， 丢 弃 小 数 部 分 ， 直 到 值 为 1; 与 此 类 似 再 填 A 栏 ， 

但 改 成 每 一 行 的 值 为 上 面 的 两 倍 : 


B=17 和 = 绰 
8 62 
4 124 
2 248 


1 496 
接 下 来 ， 把 所 有 B 列 为 奇数 的 行 的 A 列 的 值 加 起 来 即 可 。 本 例 中 ，B 列 只 有 17 和 1 是 奇 
数 ， 因 此 最 后 乘积 结果 是 31 + 496 =527， 显 然 是 正确 的 。 
注意 本 节 给 出 的 这 种 方法 并 不 是 唯一 的 硬件 能 够 实现 的 部 分 积 方法 ， 也 不 是 唯一 可 用 的 乘 
法 方法 。 


2.5.3 移 位 加 方法 


移 位 加 方法 基于 这 样 一 个 事实 : 对 二 进 制 数 来 讲 ， 左 移 一 位 相当 于 乘 以 2， 左 移 两 位 相当 
于 乘 以 4， 依 次 类 推 。 

应 用 这 个 属性 执行 乘法 操作 时 将 不 可 避免 地 遇 到 问题 ， 当 在 此 基础 上 进行 迭代 加 法 时 ， 
操作 的 次 数 将 取决 于 乘 数 的 具体 值 ， 而 不 是 乘 数 本 身 的 位 宽 。 鉴 于 此 ， 该 方法 在 商业 处 理 
器 的 通用 乘法 器 中 很 少见 到 。 但 当 乘 数 是 固定 值 并 且 近 似 于 2 的 短 时 ,该 方法 显得 非常 有 
效 。 因 此 ， 该 方法 多 用 于 数字 滤波 器 〈 包 含 一 系列 乘法 运算 的 器 件 ) ， 其 乘 数 的 值 是 预先 确 
定 的 。 

此 方法 也 易于 实现 基于 FPCA “的 定点 滤波 器 设计 ， 因 为 在 这 类 设计 中 ， 从 一 个 加 法 器 传 
到 下 一 个 就 是 简单 地 把 两 个 逻辑 单元 用 线 连 起 来 ， 可 以 通过 把 一 个 单元 的 输出 位 0，1， 
2，… 连 接 到 下 一 个 单元 的 输入 位 1，2，3 ，… 而 轻松 地 完成 右 移 。 


2.5.4 Booth 和 Robertson 方法 


Booth 方法 类 似 于 部 分 积 方法 ， 从 右 向 左 扫描 乘 数 的 每 一 位 ， 然 后 根据 乘 数 位 的 值 ， 对 被 
乘 数 经 过 移 位 后 的 值 进行 加 或 减 。 不 同 的 是 在 Booth 方法 中 ， 乘 数 的 位 是 两 位 两 位 地 进行 检 
测 ， 而 不 是 一 位 一 位 进行 。 对 该 方法 的 一 种 扩展 是 4 位 并 行 检测 ， 而 Robertson 方法 是 整个 字 
节 并 行 检测 。 

这 些 方法 的 优点 是 速度 极 快 , 但 其 逻辑 会 随 着 并 行 检测 的 位 宽 增加 而 变 得 复杂 。 


加 FPCA: 现场 可 编程 门 阵列 ( Field Programmable Gate Array) ， 一 个 灵活 的 、 可 编程 的 逻辑 设备 。 
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Booth 方法 的 关键 是 定义 一 个 规则 ， 就 是 如 何 按照 乘 数 的 某 两 位 的 值 对 被 乘 数 进行 加 或 减 。 











定义 乘 数 中 相 邻 的 两 位 为 天， 和 XX,_,， 从 i=0 开始 扫 表 2-1 Booth 方法 中 的 规则 定义 
描 乘 数 ， 表 2-1 列 出 了 相 邻 两 位 的 所 有 组 合 及 相应 一 x 一 x my 一 
的 规则 。 0 0 无 操作 

当 从 累加 器 中 加 或 减 一 个 被 乘 数 时 ， 和 部 分 积 ' 1 皇位 后 的 计 
方法 类 似 ， 先 要 将 其 左 移 到 第 i 位 的 位 置 。 框 2.15 一 本 


和 框 2. 16 给 出 了 这 一 过 程 的 详细 实例 。 
读者 练习 
考虑 9x10 (无 符号 乘 ) : 
1001 ”被 乘 数 为 9 
00001010 ” 乘 数 为 10 
0000 ”(i=0 时， 无 操作 ， 因 为 位 对 为 未 位 0 和 一 个 隐藏 的 0) 
-1001 (i=1 时 ， 减 去 被 乘 数 ， 因 为 位 对 =10) 
+1001 (i=2 时 ， 加 被 乘 数 左 移 2 位 的 值 ， 因 为 位 对 =01) 
—1001 (i=3 时 ， 减 去 被 乘 数 左 移 3 位 的 值 ， 因 为 位 对 =10) 
+ 1001 (i=4 时 ， 加 被 乘 数 左 移 4 位 的 值 ， 因 为 位 对 =01) 
(i=5 及 以 后 ,无 操作 ， 因 为 所 有 位 对 =00) 
因此 ， 下 面 的 累加 就 可 得 到 结果 : 
10010000 
— 1001000 
+100100 
-10010 
或 者 把 减法 转换 成 加 法 (方法 见 2.4.4 节 ): 
10010000 
+10111000 
+100100 
+11101110 
=01011010 
得 到 乘积 : 
1011010 =64 +16 +8 +2 =90 (正确 ) 
需要 注意 的 是 ， 当 i=0 时 ， 检 测 的 两 位 分 别 是 乘 数位 的 最 低位 和 一 个 假想 位 0。 因此 当 乘 
数 的 最 低位 是 “1” 时 ,被 乘 数 一 定 要 被 减 掉 ( 即 按照 “10” 对 待 的 )。 在 第 二 个 例子 
( 框 2.16) 中 就 是 这 样 。 
Booth 方法 实例 
考虑 -9xll (有 符号 乘 ) : 
11110111 被 乘 数 为 -9 
00001011 乘 数 为 11 
=1111011] (i=0 时 ， 减 去 被 乘 数 ， 因 为 位 对 =10) 
0000000 (i=1 时 ， 无 操作 ， 因 为 位 对 =11) 


+110111 (i=2 时 ， 加 上 被 乘 数 左 移 2 位 的 值 ， 因 为 位 对 =01) 
-10111 (i=3 时 ， 减 去 被 乘 数 左 移 3 位 的 值 ， 因 为 位 对 =10) 
+0111 (i=4 时 ， 加 上 被 乘 数 左 移 4 位 的 值 ， 因 为 位 对 =01) 
000 (i=5 及 以 后 ,无 操作 ， 因 为 所 有 位 对 =00) 


因此 ， 下面 的 累加 就 可 得 到 结果 : 
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-11110111 

+11011100 

-10111000 

+01110000 
re [43 | 
或 者 把 减法 转换 成 加 法 (方法 见 2.4.4 节 ): 

00001001 

+11011100 

+01001000 

+01110000 

=10011101 + 进位 
得 到 乘积 : 

10011101 = -128+16+8+4+1= -99 (正确 ) 

还 有 两 点 值得 注意 。 首 先 ， 处 理 有 符号 补 码 格式 操作 数 时 ， 部 分 积 必须 进行 符号 扩展 ， 这 
和 完全 的 部 分 积 乘法 器 是 一 样 的 。 其 次 ， 从 右 向 左 扫描 时 ， 由 于 最 右 侧 有 一 个 假想 位 0 存在 ， 
这 意味 着 遇 到 的 第 一 个 非 等 值 对 (两 位 ) 一 定 是 “10”， 对 应 着 一 个 减法 。 这 条 规律 可 能 有 助 
于 进行 硬件 实现 。 

尽管 有 人 已 经 从 事 二 进 制 运 算 很 多 年 ， 这 里 还 是 要 提醒 一 下 : 在 二 进 制 加 法 中 太 容 易 犯 许 
多 非常 细小 的 错误 了 。 如 果 你 在 考试 中 遇 到 这 个 题目 ， 请 仔细 检查 你 的 运算 ， 第 一 次 就 答对 并 
不 像 看 上 去 的 那么 容易 。 

前 面 提 到 ， 用 查找 表 方 法 可 以 把 Booth 方法 扩展 为 同时 检测 4 位 ，Robertson 方法 又 向 前 迈 
出 了 一 步 ， 建立 了 一 个 8 位 的 查找 表 。 这 些 方法 其 实 常见 于 各 种 现代 处 理 器 ， 尽 管 它 们 会 占用 
相当 大 的 硅 面积 。 
2.6 除法 

许多 年 来 ， 作 为 商品 的 CPU 甚至 是 DSP 都 没有 用 硬件 实现 除法 ， 因 为 其 复杂 性 和 占用 的 
硅 面积 都 太 大 。Analog Devices 公司 的 DSP 及 其 他 几 种 芯片 中 包括 DIV 除法 指令 ,但 通常 这 只 
是 一 个 辅助 硬件 ， 通 过 采用 非常 基本 的 减法 进行 迭代 而 实现 。 
减法 迭代 

除法 的 过 程 就 是 判断 被 除数 Q 中 包含 多 少 个 除数 M (结果 是 商 QAM) ， 因 此 可 以 简单 地 数 
一 下 Q 减 M 可 以 减 多 少 次 ， 直 到 余数 小 于 M 为 止 。 例 如 ， 计 算 13/4， 讨论 下 面 的 循环 : 

迭代 次 数 1=1， 余 数 r=13 -4=9; 

迭代 次 数 i=2， 余数 r=9 -4=5; 

迭代 次 数 i=3，, 余数 r=5 -4=1; 

余数 1 小 于 除数 4， 因 此 商 为 3， 余 数 是 1。 

对 二 进 制 的 计算 过 程 与 此 是 一 样 的 ， 框 2. 17 中 给 出 的 实例 是 很 好 的 长 除法 例子 。 [44| 





长 除法 实例 

考虑 23 5 (无 符号 除 ) 。 

首先 以 长 除法 的 格式 写 下 其 二 进 制 值 : 

101 [010TIT 





然后 ， 从 最 高 位 ( 左 ) 开始 向 最 低位 ( 右 ) 扫描 被 除数 的 每 一 位 ， 看 在 被 除数 中 是 否 能 “找到 ” 除 
数 。 如 果 找 不 到 ， 则 在 被 除数 上 面相 应 的 位 置 写 “0”， 再 看 下 一 位 。 经 过 3 次 迭代 ， 得 到 : 
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但 是 现在 ， 在 被 除数 的 当前 位 置 能 找到 101， 因 此 把 101 写 在 被 除数 的 下 面 ， 并 在 被 除数 上 面 的 相应 
位 置 写 “1”。 然 后 从 被 除数 中 减 掉 除 数 ( 在 找到 那 一 位 的 位 置 )， 形 成 一 个 新 的 被 除数 : 


0001 


101 | 010111 


= 0ti 


000011 


接 下 来 ， 继 续 从 左 向 右 扫描 ， 但 是 这 次 从 新 的 被 除数 中 寻找 除数 。 本 例 中 这 次 没 找 到 ， 扫 描 所 有 位 
， 得 到 : 


Tm 


000100 


03 | O10L1L 


101 





000011 


结果 : 商 是 000100， 余数 是 000011。 我 们 做 的 是 23 除 以 5， 期 望 的 商 是 4 (正确 ) ， 余 数 是 3 (也 正确 )。 
所 以 现在 的 问题 是 ， 如 何 进 行 有 符号 整数 的 除法 ”大概 一 个 有 效 的 方法 是 记 下 两 个 操作 数 
的 符号 ， 把 它们 都 转换 为 无 符号 数 ， 执 行 完 除法 后 再 把 正确 的 符号 位 加 回去 。 除 法 的 符号 规则 
和 乘法 一 样 ， 只 有 在 两 个 操作 数 异 号 的 时 候 结 果 为 负 。 
主流 微 处 理 器 的 除法 过 程 如 图 2-9 
所 示 。 仔 细 检 查 后 会 提出 一 些 问 题 ， 如 
“为 什么 A 和 Q 每 次 迭代 都 左 移 ?”“ 为 
什么 在 循环 中 执行 一 个 加 法 Q =Q+M?” 
要 回答 这 些 问 题 ， 可 以 考虑 这 些 操作 是 FE 
如 何 通过 CPU 里 的 寄存 器 执行 的 。 这 可 
以 作为 一 个 纸 上 练 习 ， 遵 循 算 法 的 操作 
完成 一 个 除法 例子 ， 可 能 是 两 个 6 位 的 
数字 。 这 样 的 练习 有 助 于 阐明 系统 是 如 0-0 QQrM 
注意 在 算法 结束 时 ， 寄 存 器 A 中 保 A[OJ=1 
存 了 结果 的 商 ， 余数 保存 在 寄存 器 Q 中 。 
算法 将 迭代 nn 次 , n 是 输入 字 的 位 宽 。 一 
如 既往 ， 完 全 有 可 能 推导 出 其 他 不 同 的 出 口 ，A 是 商 ，Q 是 余数 | END | 
流程 图 ， 例 如 ， 有 些 方法 甚至 会 从 相反 
的 方向 扫描 每 一 位 并 迭代。 图 29 际 污 并 法 流程 国 


2.7 定点 数 格式 的 运算 


2.3.7 节 介 绍 了 使 用 Q 格式 表示 的 定点 数 表示 法 。 尽 管 需 要 使 用 定点 数 表示 的 原因 有 很 
多 ， 但 其 中 一 个 主要 原因 是 在 数字 信号 处 理 中 ， 有 很 长 的 数字 滤波 器 ” ， 需 要 成 百 甚至 上 千 的 


入 口 ，n 位 除法 Q/M， 
M 是 除数 ，Q 是 被 除数 


A=0,，count=n, M=M<<n 















加 数字 滤波 器 一 般 使 用 一 系列 连接 的 乘 -加 操作 来 改变 信号 的 特性 (以 数据 流 的 形式 呈现 ) 。 例 如 ， 音 频 信号 
可 能 被 过 滤 以 屏蔽 背景 噪声 。 
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乘 累 加 运算 来 确定 结果 。 

试想 一 下 ， 如 果 滤 波 器 的 一 些 权 值 (滤波 器 中 固定 的 值 ， 用 来 乘 以 输入 数据 ) 非常 小 ， 
那么 被 这 些小 的 值 乘 了 很 多 次 之 后 ， 结 果 会 更 小 ,在 所 使 用 的 数字 格式 下 会 被 舍 人 到 零 。 相 
反 ， 如 果 一 些 权 值 很 大 ， 被 乘 过 多 次 之 后 的 结果 就 会 非常 大 ， 导 致 溢出 。 要 设计 一 个 过 滤器 来 
避免 这 两 种 极端 情况 难度 很 大 。 

幸运 的 是 ， 有 一 个 合理 、 高 效 的 解决 方案 : 确保 操作 数 是 定点 数 格式 ， 小 于 但 尽 可 能 接近 
1.0。 其 理由 是 ， 任 何 一 个 数字 乘 以 小 于 或 等 于 1.0 的 结果 不 会 大 于 它 本 身 。 因 此 ， 我 们 确保 
这 样 的 两 个 数字 相 乘 之 后 ， 绝 不 会 导致 溢出 。 同 样 ， 任 何 数 乘 以 一 个 值 略 小 于 1.0 的 数 之 后 ， 
其 结果 不 会 太 小 ， 因 此 结果 不 太 可 能 快速 地 被 伟人 到 有 零 。 

这 种 做 法 是 可 行 的 ， 因 为 在 滤波 器 中 只 是 进行 乘 和 加 ， 这 些 是 线性 过 程 : (a+4b) 和 
(10a +105) /10 的 结果 是 一 样 的 。 

再 次 提醒 ， 实际 使 用 的 定点 数 格式 和 用 于 执行 计算 的 硬件 是 不 相关 的 。 它 只 是 一 个 抽象 的 
概念 ， 软 件 工程 师 必 须 牢记 。 这 将 在 本 章 后 面 的 讲述 中 通过 不 同 的 例子 来 说 明 。 


2.7.1 定点 数 的 运算 


两 个 小 数 做 加 法 时 ， 硬 件 加 法 器 将 对 任何 二 进 制 数据 进行 盲目 的 相 加 。 但 是 ， 只 有 当 每 个 
操作 数 的 格式 都 相同 时 ， 答 案 才 是 正确 的 ， 答 案 的 格式 才 会 与 操作 数 的 格式 相同 。 如 果 对 不 同 
格式 的 操作 数 进 行 加 法 ， 那么 答案 就 没有 意义 了 。 假 设 结果 格式 与 操作 数 格 式 一 样 : 

(mn)+ (mn) = (m.n) 
(mn) -mn) = (m.n) 

框 2. 18 中 的 两 个 例子 说 明了 这 种 定点 数 格式 数字 的 运算 。 
定点 数 表示 实例 

问 1: 用 (2.2) 格式 的 定点 数 表 示 法 表示 1.75 和 1.25， 把 两 个 数 相 加 并 给 出 结果 。 

答 : 首先 计算 (2.2) 格式 的 位 权 : 小 数 点 右边 有 两 位 ， 小 数 点 左边 有 两 位 。 向 左 的 数字 是 整数 权 
值 ， 是 2 的 车 ， 从 1 开始 。 往 右边 的 数字 是 定点 数 权 值 ， 是 2 的 竹 的 倒数 ， 从 1/2 开始 。 


EE 
2 1 12 | 14 
Eg Qs |025 | 


我 们 可 以 把 1.75 分 解 为 1 +0.5 +0.25， 把 1.25 分 解 为 1+0.25， 写 出 (2.2) 二 进 制 格式 为 0111 
和 0101。 

这 两 个 操作 数 的 二 进 制 加 法 结果 为 1100， 它 正确 吗 ? 

1100 在 (2.2) 格式 时 等 于 2+1=3， 当 然 1.75 +1.25 =3， 所 以 结果 是 正确 的 。 

下 面 ， 我 们 讨论 当 某 些 过 程 出 错时 会 发 生 什么 。 

问 2: 用 (2.2) 格式 定点 数 表 示 法 表示 1.75， 用 〈1.3) 格式 定点 数 表 示 法 表示 0.625， 把 两 个 数 
相 加 并 给 出 结果 。 

答 : 在 问题 1 中 1.75 已 经 被 表示 为 0111。(1.3) 格式 定点 数 表示 法 的 权 值 是 1，0.5，0. 25 0. 125， 
因此 把 0. 625 分 解 为 0.5+0.125， 得 到 二 进 制 数 0101。 

接 下 来 执行 加 法 0111 +0101， 结 果 为 1100。 

但 是 我 们 并 不 知道 结果 用 什么 定点 数 格式 。 我 们 猜测 是 否 是 (2.2) 格式 或 (1.3) 格式 ， 对 每 种 都 
转换 为 十 进 制 值 看 一 下 。 

用 (2.2) 格式 时 结果 是 2+1=3, 用 (1.3) 格式 时 结果 是 1+0.5=1.5， 而 真正 的 结果 是 1.75 + 
0. 625 =2.375。 显 然 ， 这 不 匹配 任何 一 种 猜测 的 答案 。 

我 们 应 该 做 的 就 是 改变 其 中 的 一 个 ， 让 它们 有 相同 的 格式 ， 然 后 再 执行 加 法 。 
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注意 : 你 注意 到 这 两 个 例子 中 的 二 进 制 模式 是 相同 的 了 吗 ? 这 只 是 我 们 对 各 例子 中 不 同位 模式 的 解 
释 。 按 这 种 方式 使 用 不 同 的 解释 ， 可 能 会 导致 相同 的 位 模式 有 多 重 意义 ,但 用 于 执行 计算 的 硬件 并 不 需 


2.7.2 定点 数 的 乘除 


在 乘法 的 情况 下 有 更 多 的 灵活 性 ， 操 作 数 可 以 有 不 同 的 定点 数 格式 ， 而 结果 的 定点 数 格式 
又 是 从 操作 数 的 格式 推导 出 来 的 ， 因 此 具有 更 大 的 灵活 性 。 例 如 ， 如 果 将 (m. n) 格式 数 乘 以 
(p.9) 格式 数 : 

(mn) x(p.g) = (m+ (pxn) +9qg) 

显然 乘法 结果 的 位 数 是 两 个 乘 数 的 位 数 之 和 ， 这 一 结论 从 2.5 节 中 我 们 已 经 了 解 的 乘法 器 
硬件 结构 上 就 能 推断 出 来 。 

除法 会 较为 复杂 。 事 实 上 ， 执 行 除 法 的 最 好 方式 是 : 先 去 掉 两 个 操作 数 的 小 数 点 ， 一 步 一 
步 地 将 小 数 点 逐 位 向 右 移 ， 直 到 它们 在 最 大 操作 数 的 最 低 有 效 位 后 面 适 当 扩 大 了 较 小 的 操作 
数 。 然 后 就 可 以 按照 标准 的 二 进 制 方式 相 除 了 。 在 十 进 制 中 ， 这 就 像 计算 5.4 * 0.9 时 先 将 每 
个 操作 数 乘 以 10， 把 计算 变 为 54 +9。 大 多 数 人 会 觉得 第 二 个 除法 比 第 一 个 更 容易 ， 即 使 它们 
的 答案 完全 相同 。 在 二 进 制 中 ， 它 是 base-2 而 不 是 base-10 ， 我 们 需要 在 每 次 移动 小 数 点 时 将 
数字 加 倍 ， 而 不 是 乘 以 10。 

框 2. 19 中 的 实例 前 明了 定点 数 除 法 是 如 何 完成 的 。 
定点 数 除法 实例 

考虑 11. 000 :01.00 (无 符号 数 ) 。 

它 和 3+=1 一 样 没有 太 大 的 实际 意义 。 完 成 此 运算 的 第 一 步 是 将 小 数 点 向 右 移 一 个 位 置 : 


110. 00 =010.0 
这 样 不 够 ， 因 为 数字 中 仍然 包含 小 数 点 ， 所 以 重复 一 次 : 
1100. 0 =0100. 
这 还 不 够 ， 所 以 再 来 一 次 ， 将 1100. 0 移 除 小 数 点 后 ，0100 同时 被 扩大 ， 如 下 : 
11000. = 01000. 
然后 按照 标准 二 进 制 除法 去 除 : 
01000 11000 
继续 二 进 制 长 除法 : 
00011 
01000 11000 
- 1000 
01000 
— 01000 


00000 
结果 是 11， 就 像 3+1 的 值 为 3 一 样 ， 结 果 正 确 。 
观察 上 述 实例 ， 显 然 实 际 的 除法 并 不 比 标准 二 进 制 算法 复杂 , 但 是 考虑 小 数 点 的 位 置 时 可 
能 会 有 问题 。 事 实 上 ， 它 需要 程序 员 小 心 编码 (在 实践 中 ， 大 多 数 除法 计算 可 能 是 使 用 编译 语 
言 完成 的 ， 数 学 库 完 成 了 所 有 困难 的 工作 ， 程 序 员 不 必 再 做 这 些 ) 。 


2.8 浮 点 数 


浮 点 数 和 二 进 制定 点 数 格式 很 相似 ， 但 它们 更 灵活 ， 因 为 小 数 点 位 置 是 可 变 的 〈 作 为 数字 
本 身 的 一 部 分 存储 ) 。 正 是 这 种 灵活 性 使 得 浮 点 数 只 用 较 少 的 位 数 编码 就 能 够 表示 相当 大 范围 
的 值 。 
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2. 8. 1 广义 浮 点 数 


一 个 浮 点 数 包含 尾数 5 (或 称 定点 数 部 分 ) 和 指数 (或 称 窒 )， 也 可 能 有 一 个 符号 位 [49 ] 


(o)， 这样， 基数 为 B 的 数 可 以 表示 为 : 
n=oxSxB’ 
如 果 考 虑 符号 ， 在 二 进 制 中 ，1 代表 负数 ,0 代表 正 数 ， 因 此 : 
ZR 

看 一 个 基数 为 10 的 例子 一 一 23 x 10" ， 我 们 知道 它 就 是 2 300 000 000 的 一 种 科学 计数 法 表 
示 。 其 实 这 正 说 明了 浮 点 数 的 一 个 主要 优点 : 相 比较 于 这 个 数 实际 的 十 进 制 (或 者 二 进 制 ) 
值 ， 浮 点 数 表 示 形 式 通常 会 更 短 (在 二 进 制 中 就 是 更 少 的 位 数 ) 。 

在 二 进 制 中 ， 基 数 就 是 2 而 不 是 10 ， 典 型 的 例子 如 01001111 x2 ， 如 果 尾 数 (01001111 ) 
是 无 符号 数 ， 则 : 

01001111 x25 =79,。x64,。=5056,,= 1001111000000 

其 中 下 标 10 表示 这 是 一 个 十 进 制 值 。 

当然 ， 最 终 的 值 和 把 尾数 进行 指数 次 移 位 后 的 值 是 一 样 的 〈 基 于 同样 的 原理 ， 我 们 对 上 面 
基数 为 10 的 例子 中 加 了 8 个 0)。 

通常 情况 下 ， 构 成 一 个 浮 点 数 (oo,， 5 和 E) 的 所 有 位 都 存储 在 相同 的 位 置 ， 具 有 方便 的 
位 宽 , 如 16、32、64 或 128 位 。 因 此 在 处 理 的 时 候 ， 需 要 有 位 级 的 操作 将 它们 从 一 个 整体 存 
储 分 离 为 3 个 不 同 部 分 。 


2. 8.2 1IEEE754 浮 点 标准 


虽然 有 多 种 可 能 的 浮 点 格式 ， 而 且 在 计算 史上 也 出 现 过 各 种 实现 例子 , 但 产生 于 20 世纪 
70 年 代 的 正 EE754 已 经 成 为 到 目前 为 止 最 流行 的 标准 ， 被 所 有 主要 的 CPU 制造 商 采 用 。 行业 
内 普遍 认为 ，IEEE754 是 一 个 设计 得 很 好 的 、 高 效 的 浮 点 格式 ， 从 而 得 到 高 度 重视 。 

这 里 不 打算 描述 正 EE754 整个 标准 ,但 我 们 将 介绍 一 些 较为 常见 的 功能 。 特 别 是 ,我们 将 
讨论 32 位 和 64 位 格式 (过 去 分 别 简称 为 单 精度 和 双 精 度 )， 分 别 存储 于 32 位 和 64 位 存储 空 
间 ， 并 且 标 准 配 置 为 16 位 半 精 度 ，128 位 四 倍 精度 和 256 位 八 倍 精度 。 在 C 编程 语言 中 ，32 
位 和 64 位 通常 对 应 于 float 和 double 数据 类 型 (尽管 精确 映射 到 硬件 是 依赖 于 编译 器 的 ) : 














名 称 位 宽 符号 位 er 宽 指数 五 位 宽 尾数 5 位 宽 
单 精 度 32 1 | 8 23 
双 精 度 64 1 11 52 


此 外 ， 在 中 间 计 算 阶 段 会 在 表示 中 加 入 其 他 位 (在 硬件 浮 点 单元 中 ) ， 以 确保 整体 精度 保 
持 不 变 ， 这 将 在 2.9.3 节 介 绍 。 

除了 所 有 使 用 32 位 或 64 位 的 有 符号 尾数 和 指数 表示 外 ，IEEE754 格式 还 巧妙 地 表示 了 为 
外 4 种 模式 ， 采 用 的 是 常规 数字 中 不 会 出 现 的 特殊 位 模式 。 如 下 表 所 示 ， 第 一 行 是 默认 模式 ， 
也 称 为 “规格 化 " 。 最 后 一 行 是 非 规格 化 数 ， 它 是 0 到 最 小 规格 数 之 间 的 数字 : 























名 称 o E Ss 
规格 化 数 1 或 0 不 是 全 零 也 不 是 全 1 任意 数 
零 1 或 0 | ”全 去 全 零 
无 穷 大 1 或 0 全 1 | 全 零 
不 是 一 个 数 (NaN) 1 或 0 全 1 | 非 零 








非 规格 化 数 全 堆 非 零 
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当 写 一 个 符合 正 EE754 标准 的 数 时 ， 我 们 通常 从 左 向 右 按 顺 序 写 每 一 位 (og, E，5)， 如 下 : 
Le Je |s 
其 中 ， 整 个 框 表示 一 个 32 位 或 64 位 的 二 进 制 数 ,包含 一 个 EEE754 标准 的 值 。 本 书 中 给 出 的 
所 有 例子 都 只 使 用 32 位 单 精度 以 节省 纸张 。 


2. 8. 3 1IEEE754 标准 模式 


在 随后 的 讨论 中 ,我 们 将 用 5 来 表示 无 符号 定点 数 (0.23) 格式 的 尾数 位 模式 ， 用 名 来 表 
示 无 符号 二 进 制 补 码 格式 的 指数 位 模式 ， 用 o 表示 符号 。 请 注意 ， 它 们 在 IEEE754 标准 的 5 个 
模式 中 含义 不 同 ( 即 E 可 能 不 是 指数 ，5 在 某 些 模式 中 可 能 不 是 尾数 一 一 由 它们 来 表示 特殊 的 
位 模式 ) 。 

这 是 一 个 EEE754 标准 下 32 位 数字 的 例子 ， 虽然 它 以 单个 数字 块 的 形式 存储 在 计算 机 中 ， 
如 01011001011100000000000000000000000 ， 但 为 了 方便 ， 我 们 把 它 分 为 3 个 部 分 ， 如 下 所 示 : 


0 10110010 11100000000000000000000000 


其 中 o=0， 因 此 是 正 号 ， 有 














E=128 +32+16+2=178 
S=0.5+0.25 +0.125 =0. 875 

我 们 将 始终 保持 这 个 E 和 5 的 命名 约定 。 因 此 ， 在 后 文中 当 提 到 “尾数 ”和 “指数 ”时 
是 用 来 表示 所 写 位 模式 的 含义 的 ， 而 S$ 和 表示 所 写 的 二 进 制 值 。 

例如 ，5 的 值 为 11100...0 =0.875， 可 能 意味 着 尾数 是 0. 875 、1. 875 或 其 他 不 相关 (不 是 
一 个 数 ，NaN) 的 值 。 后 面 将 会 看 到 ， 实 际 所 写 的 位 模式 的 含义 会 随 着 下 EE754 模式 的 变化 而 

2. 8.3.1 规格 化 模式 

大 部 分 非 零 数 字 都 采用 这 种 数字 格式 。 遵 循 这 种 模式 的 数字 格式 可 以 真正 称 为 “ 浮 点 
数 ”。 在 此 模式 下 ， 数 字 由 下 面 的 位 模式 (go, 无 ，$) 表示 : 

届 室 并 二 汪 芝 下 也 站 列 全 

这 里 ， 首 先 我 们 看 到 指数 是 用 一 个 移 127 的 移 码 表示 法 (在 2.3.5 节 中 已 介绍 ); 其 次 ， 尾 数 
需要 加 上 一 个 “1”， 也 就 是 说 ， 尾 数 等 于 $ +1， 其 中 $ 如 我 们 所 知 ， 是 以 〈0.23) 格式 书写 
的 ， 所 以 尾数 必须 介 于 1 和 2 之 间 。 

这 可 能 会 非常 混乱 ， 所 以 我 们 回 到 IEEE754 标准 数 的 例子 ， 见 框 2. 20， 然 后 在 框 2. 21 中 
给 出 第 二 个 例子 。 
生肖 1IEEE754 规格 化 模式 实例 1 

下 面 给 出 了 一 个 用 IEEE754 标准 表示 的 二 进 制 值 ， 请 判断 其 十 进 制 值 。 


0 10110010 11100000000000000000000000 


首先 ， 注 意 到 or =0， 因 此 其 值 为 正 。 其 次 ， 可 以 发 现 这 个 数 是 按照 规格 化 模式 写 的 ， 因 此 : 
E=128 +32+16 +2=178 
S=0.5+0.25 +0.125 =0.875 
使 用 规格 化 模式 数 的 公式 ， 我 们 可 以 计算 其 值 ， 过 程 如 下 : 
n= (1) x 人 (+0875) x2 2 
= 1, 875 x2” 
= 4.222 x 105 
如 我 们 所 看 到 的 ， 例 子 的 结果 是 一 个 很 大 的 数 ， 说 明 浮 点 格式 能 够 表示 一 些 相当 大 的 值 。 
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IEEE754 规格 化 模式 实例 2 
下 面 给 出 了 一 个 用 IEEE754 标准 表示 的 二 进 制 值 ， 请 判断 其 十 进 制 值 。 


1 00001100 01010000000000000000000000 


此 例 中 or =1， 因 此 是 负数 ， 从 剩余 的 位 模式 得 到 : 

E=8+4=12 
S$=1/4+1/16=0. 3125 

使 用 规格 化 模式 数 的 公式 ， 我 们 可 以 计算 其 值 ， 过 程 如 下 : 

所 二 
= 二 1.35 x 
= 一 3.1597 x 10™ 

这 次 结果 是 一 个 非常 小 的 数 ， 这 说 明 浮 点 数 可 以 表示 一 个 足够 大 的 数 的 范围 ， 而 且 通 过 所 表示 的 数 
的 范围 〈2. 8.4 节 将 进一步 阐述 ) ， 保 证 了 精度 。 

我 们 的 例子 中 很 多 数 的 尾部 都 有 一 长 串 零 。 通 过 考察 将 其 中 一 个 尾部 的 最 低 有 效 位 从 
“0” 变 为 “1” 会 导致 其 结果 有 什么 不 同 ,来 获得 关于 IEEE754 基本 精度 的 一 个 想法 。 框 2. 22 
提供 了 一 个 指导 ， 告 诉 我 们 如 何 去 测 试 这 个 效果 。 
读者 练习 

请 注意 ， 在 上 述 两 个 实例 ( 框 2.20 和 框 2.21) 中 ,23 位 长 的 尾数 都 是 以 儿 个 “1” 开 始 ， 却 以 一 长 
束 “0” 结 束 。 这 样 做 是 为 了 减少 计算 尾数 值 的 难度 ， 因 为 在 (0.23) 定点 数 格式 中 ,左边 的 权 值 比较 
容易 处 理 ， 都 是 如 0.5、0.25、0. 125 等 的 值 。 而 实际 上 ， 当 我 们 向 右 移动 时 ， 位 的 权 值 迅速 变 得 很 难 
记录 。 

本 例 的 练习 就 是 重复 框 2.20 和 框 2.21 中 的 一 个 实例 ， 但 是 将 尾数 的 最 低 有 效 位 设 为 1。 如果 尾 数 最 
高 有 效 位 ( 即 第 23 位 ) 的 权 值 是 2…(0.5)， 下 一 位 ( 即 第 22 位 ) 的 权 值 是 2(0.25)， 那么 第 0 位 的 
权 值 是 多 少 ? 

当 把 这 个 加 到 结果 中 时 ， 和 我 们 记录 的 结果 有 什么 不 同 呢 ? 

现在 真正 的 问题 是 ， 这 是 否 意 味 着 IEEE754 中 浮 点 数 的 精度 呢 ? 

2. 8. 3. 2 非 规格 化 模式 

有 些 数 的 绝对 值 非常 小 ， 以 至 于 IEEE754 无 法 表示 它们 。 广 义 的 浮 点 数 会 把 这 样 的 值 舍 入 
为 零 ， 但 IEEE754 有 一 个 特殊 的 非 规格 化 模式 ， 它 允许 所 表示 数 的 绝对 值 逐 渐变 小 直到 零 一 一 
优雅 地 降低 精度 直到 达到 零 。 

非 规格 化 模式 实际 上 并 不 是 浮 点 数 ， 因 为 指数 ( 数 的 一 部 分 ， 用 来 指明 小 数 点 位 置 ) 全 
部 设置 为 去 ， 所 以 不 再 “浮动 ” 。 然 而 ， 这 种 模式 下 ， 人 允许 扩展 范围 是 了 EEE754 标准 数 的 重要 
优势 ， 它 允许 有 用 的 范围 扩展 (在 该 模式 下 降低 了 精度 ) 。 

该 模式 下 ， 位 模式 (c, 乙 ，$) 表示 的 数字 如 下 : 

We 1Y xB x 

首先 ， 可 以 看 到 指数 是 固定 值 ， 上 面 已 经 提 到 过 。 其 次 ， 我们 不 再 需要 给 尾数 加 “1”。 当 
我 们 在 2. 8. 4 节 研 究 数 的 范围 时 ， 会 发 现 这 样 做 的 原因 很 明显 。 

由 于 指数 固定 ， 位 模式 中 指数 总 是 全 零 ， 而 尾数 不 是 零 。 框 2. 23 中 的 实例 将 有 助 于 澄清 
任何 混淆 。 

IEEE754 非 规格 化 模式 实例 
下 面 给 出 了 一 个 用 IEEE754 标准 表示 的 二 进 制 值 ， 请 判断 其 十 进 制 值 。 


[o | 00000000 | 11010000000000000000000000 | 
首先 ， 我 们 注意 到 er =0， 此 位 模式 表示 的 数 是 正 数 。 








[52 ] 





[53,] 
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=0， 因 此 我 们 查 2.8.2 节 中 的 模式 表 ， 看 我 们 处 理 的 是 一 个 零 还 是 一 个 非 规 格 化 数 。 我 们 实际 上 
需要 测试 尾数 来 决定 〈 若 为 零 ， 那 么 尾数 必须 也 为 零 ， 否 则 是 一 个 非 规格 化 数 ) 。 

查看 尾数 ， 我 们 看 到 是 非 零 值 ， 因 此 非 规格 化 模式 数 如 下 : 

S = 0.5 +0.25 + 0.0625 = 0. 8125 
使 用 非 规格 化 模式 数 的 公式 ， 我 们 可 以 计算 其 值 ， 过 程 如 下 : 
n= (-1)" x0.8125 x2-2 = 9.5509 x 10™™ 

由 于 非 规格 化 数 向 下 扩展 了 IEEE754 的 范围 ， 因 此 ， 其 绝对 值 总 是 很 小 。 

2. 8.3.3 其 他 模式 数 

零 、 无 穷 大 和 NaN 由 其 特殊 的 位 模式 确定 。 这 些 都 可 以 是 正 数 或 负数 ,在 硬件 上 需要 特 
殊 的 处 理 ( 见 框 2.24) 。 
IEEE754 无 穷 大 以 及 其 他 “ 数 ” 

无 穷 大 是 最 常 产 生 的 数 ， 通 过 除 以 零 或 一 个 规格 化 模式 的 溢出 产生 。 无 穷 大 可 以 为 正 也 可 以 为 负 ， 
用 来 指明 溢出 发 生 在 哪 一 边 。 

NaN ， 表 示 不 是 一 个 数 ， 由 一 个 未 定义 的 数学 运算 产生 ， 如 无 穷 大 乘 以 零 ， 或 者 零 除 以 零 。 

零 本 身 可 能 表示 一 个 运算 确实 结果 为 零 ， 例 如 (2-2) ， 或 者 由 一 个 下 滋 导 致 ， 当 结果 太 小 甚至 非 规 

格 化 模式 也 无 法 表示 时 ， 正 负 零 的 意义 是 说 明 这 个 不 能 表示 的 数 是 略 高 于 零 还 是 略 低 于 零 。 


2. 8.4 IEEE754 数 的 范围 


理解 正 EE754 的 一 个 很 好 的 方式 就 是 构建 一 个 数 轴 ， 它 表示 了 这 种 格式 下 数 的 可 能 范围 。 
下 面 这 个 数 轴 描 述 了 无 符号 8 位 数字 的 表示 范围 ， 其 具体 包括 : 


最 小 绝对 值 =0 | | 最 大 绝对 值 =2%-1=255 
精度 ( 相 邻 两 数 之 间 的 距离 ) =1.0 


有 三 个 参数 来 描述 此 格式 。 第 一 个 是 绝对 值 最 小 的 数 (0000 0000) ， 第 二 个 是 绝对 值 最 大 
的 数 (1111 1111) ， 最 后 是 精度 。 精 度 定义 为 在 此 格式 下 相 邻 两 个 数 之 间 的 距离 。 在 此 处 ， 数 
是 按照 整数 向 上 数 的 : 1，2，3，4，5，…，255， 所 以 步 长 就 是 1 。 

现在 ， 我 们 用 同样 的 方式 为 IEEE754 格式 定义 一 个 数 轴 。 为 了 简化 问题 ， 我 们 只 考虑 正 数 
并 且 只 考虑 单 精 度 (32 位 ) 的 情况 ， 但 我 们 对 规格 化 和 非 规格 化 两 种 模式 都 会 顾及 。 

2.8.4.1 规格 化 模式 

规格 化 模式 要 求 不 能 为 全 零 或 全 1, 但 5 可 以 是 任何 值 ， 其 表示 的 实际 值 如 下 : 

计 二 

如 果 我 们 寻找 绝对 值 最 小 的 规格 化 模式 数 ， 需 要 找到 最 小 $ 和 最 小 五 的 可 能 值 。 显 然 最 小 
的 S 是 0, 但 最 小 的 E 不 能 是 0 (因为 0 意味 着 非 规格 化 模式 或 是 零 ) ， 因 此 只 能 是 00000001。 
因此 绝对 值 最 小 的 规格 化 模式 数 为 : 

| 0 | oooooo01 “| 00000000000000000000000000 
把 这 两 个 值 放 到 公式 中 ,假设 是 正 数 ， 那么: 

min. norm = (1 +0) x2 2 =1x2™ =1.175 x10™ 
下 面 寻 找 绝 对 值 最 大 的 数 ， 我 们 知道 $ 可 以 是 任何 值 , 但 不 能 是 11111111 (因为 那 意 

[55 ] 味 着 无 穷 大 或 NaN 模式 ) ， 因 此 最 大 的 E 为 11111110, 最 大 的 S 是 全 1。 
先 看 的 值 等 于 254。5 的 值 稍微 难 算 一 些 : 
EE dl Ld ILM Wl 

但 是 记 住 这 是 (0.23) 格式 ， 且 该 值 略 小 于 1.0， 我们 看 到 如 果 在 最 低位 加 一 个 二 进 制 1， 
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那么 这 个 字 中 所 有 的 二 进 制 1 都 通过 进位 变 成 0， 因 为 进位 传递 经 过 了 整个 加 法 链 ， 得 到 的 值 
如 下 : 
LI TTL T1111 T1112 1141 TW 
+000 0000 0000 0000 0000 0001 
=1000 0000 0000 0000 0000 0000 
基于 这 个 事实 ， 且 此 处 有 23 位 ， 最 高 位 的 位 权 是 2…， 第 二 高 位 的 位 权 是 2 一 ， 依 次 类 推 ， 
第 23 位 最 高 位 〈 实 际 也 是 最 低位 ) 的 位 权 一 定 是 2 一 。 
所 以 ，$ 的 值 一 定 是 〈1.0 -2 一) ， 因 为 把 2 全 加 到 $ 上 将 使 其 等 于 1.0: 


把 它们 放 到 公式 中 ， 得 到 
max. norm = (1 +1-23) X25 -~ (2=23) xX22 = 3.403 x 10% 
数字 的 精度 如 何 呢 ? 如 果 我 们 看 一 下 得 到 的 这 个 数字 ， 就 会 发 现 精度 并 不 是 常数 。 最 小 位 
始终 是 指数 所 表示 范围 的 2 一 倍 。 
最 终 ， 规 格 化 数 的 表示 范围 如 下 : 





最 小 值 1.175x10-* | | 最 大 值 3.403x10” 


精度 ( 相 邻 两 数 之 间 的 距离 ) = 指数 所 表示 范围 的 22 倍 


由 于 符号 位 只 改变 符号 ， 并 不 影响 绝对 值 ， 因 此 负数 的 表示 范围 一 定 是 一 样 的 。 
2. 8.4.2 非 规格 化 模式 
非 规格 化 模式 可 以 用 类 似 的 方法 处 理 ， 尽 管 其 指数 定义 为 全 零 ， 其 表示 的 值 如 下 : 
下 =(-1)7”xXxSX2-2 
注意 尾数 不 允许 是 零 ， 所 以 最 小 的 非 规格 化 数 就 是 把 尾数 的 最 低位 置 1: 
[0 Tooo00000 T00000000000000000000001 


因此 根据 介绍 规格 化 模式 时 对 最 大 值 的 讨论 可 知 2“ 的 值 ， 公 式 变 成 : 
min. denorm = 2™ x27™ =2- = 1.401 x10™ 
至 于 非 规 格 化 数 的 最 大 值 ， 就 是 5 为 最 大 值 时 所 表示 的 数 。 查 看 2. 8. 2 节 中 的 模式 表 可 知 
其 为 全 1: 

















[0o [oooooooo Til | 


再 次 使 用 规格 化 最 大 值 情 况 下 的 结论 ， 最 大 值 有 (1 -2 一 ) 的 意义 ， 其 值 为 : 
max. denorm = (1 - 233) x2- 2 =2- 9 =1.175 x10™ 
现在 推断 一 下 数 的 精度 。 本 例 中 ,由 于 指数 是 固定 的 ， 精 度 仅 由 尾数 最 低位 值 乘 以 指数 
决定 : 





2 x2- ”=1.401x10 ( 即 与 可 表示 的 最 小 值 相同 ) 
最 小 值 1.401x10-# 最 大 值 1.175x10-38 


精度 ( 相 邻 两 数 之 间 的 距离 ) =2-2x2-52 


把 之 前 所 有 的 精度 范围 放 在 一 起 ， 可 以 看 到 IEEE754 单 精 度数 的 巨大 表示 范围 。 请 注意 这 
只 是 实数 轴 中 正 数 的 那 一 半 ， 负 数 部 分 也 是 如 此 。 











[57 | 


58 | 








| 零 | 非 规格 化 数 
| 0 | 1.401x10 3.403x10% 


0 | 
| 0 | 精度 为 2%x2% | 精度 为 sx2sm | 


当 我 们 想 把 一 个 十 进 制 数 转换 成 正 EE754 的 浮 点 数 时 ， 精 度 表 很 有 帮助 ， 它 告诉 我 们 该 使 
用 哪 一 种 模式 ， 是 零 、 非 规格 化 数 、 规 格 化 数 还 是 无 穷 大 。 为 了 阐明 这 个 问题 ， 下 面 在 框 2. 25 
中 给 出 一 个 十 进 制 转换 为 浮 点 数 的 实例 。 

在 2.9.1 节 和 2.9.2 节 还 会 有 更 多 这 种 转换 的 例子 。 
实例 : 十 进 制 数 到 浮 点 数 的 转换 

问 : 写 出 在 IEEE754 单 精 度 格式 下 的 十 进 制 数 11 的 值 。 

答 : 在 2.8.4 节 中 查找 精度 表 ， 可 以 看 到 此 值 正好 位 于 规格 化 数 的 范围 内 ， 因 此 查找 规格 化 数 形式 : 

人 

知道 了 这 个 ， 首 先 需要 将 十 进 制 数 N=11 写成 4x2” 的 格式 ， 其 中 4 的 值 等 于 (1+5)。 已 知 1< 
A<2, 0<S<1， 可 能 最 简单 的 方法 就 是 反复 对 入 除 以 2， 直 到 得 到 一 个 介 于 1 和 2 之 间 的 4 值 : 得 到 一 
个 序列 ，11 除 以 2 后 是 5.5， 之 后 是 2.75， 最 后 是 1. 375。 

故 A=1.375， 因 此 N=1.375 x2”， 无 须 太 多 的 运算 ，B 由 原始 数 除 以 2 的 次 数 得 到 ,在 此 例 中 是 3。 
因此 数 为 : n=( 一 1)" x(1.375) x2’。 

考察 规格 化 数 公 式 ， 需 要 : 








IC=0 
E = 130( 因为 E -127 =3) 
=0.375( 因 汶 上 5 = 1,375;) 
寻求 马 的 二 进 制 位 模式 ， 为 128 +2， 即 10000010， 由 于 0.375 很 容易 表示 为 0.25 +0.125， 故 整个 
数 为 : 


0 10000010 01100000000000000000000 





2.9 浮 点 数 处 理 


到 目前 为 止 我 们 只 考察 了 浮 点 数 的 表示 ， 特 别 是 还 EE754 标准 的 表示 。 只 有 在 能 够 通过 对 
这 种 数据 的 处 理 来 完成 任务 时 ， 这 种 表示 方法 才 是 有 用 的 ， 因 此 这 里 对 此 进一步 进行 讨论 。 

在 许多 计算 机 系统 中 ， 浮 点 数 处 理 是 通过 使 用 专门 硬件 来 完成 的 ， 称 为 浮 点 协 处 理 器 或 浮 
点 运算 单元 (FPU) 。 事 实 上 ， 尽 管 这 个 部 件 往往 存在 于 商业 CPU 的 芯片 内 部 ,但 其 通常 还 是 
作为 协 处 理 器 访问 的 ， 而 不 是 主 处 理 器 的 一 部 分 。 

对 于 那些 没有 浮 点 运算 硬件 支持 的 计算 机 来 说 ,广泛 使 用 软件 仿真 ， 除 了 执行 时 间 较 长 
(参见 4.6 节 ) 外 ， 用 户 可 能 并 不 知道 浮 点 计算 是 在 哪里 进行 的 ,不 管 是 硬件 还 是 软件 。 大 多 
数 浮 点 支持 (硬件 或 软件 ) 都 是 基于 IEEE754 标准 的 ， 虽然 偶尔 有 软件 选项 允许 以 牺牲 
IEEE754 标准 的 准确 性 为 代价 来 提高 计算 速度 。 

IEEE754 数 的 处 理 过 程 包括 以 下 步骤 : 

1) 接收 操作 数 。 

2) 检查 数字 格式 模式 ， 如 果 是 固定 值 ， 则 立即 从 查找 表 中 产生 结果 。 

3) 如 果 需 要 ， 变 换 指数 和 尾数 。 

4) 执行 运算 操作 。 

5) 结果 被 转换 回合 法 的 正 EE754 数字 格式 。 保 持 尾数 最 左 侧 的 最 高 位 为 1， 因 为 这 样 可 
以 获得 最 大 精度 。 
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2.9. 1 1IEEE754 数 的 加 减 运 算 


在 广义 浮 点 数 中 ,执行 加 减 运算 之 前 指数 的 值 必须 是 相同 的 。 这 类 似 于 在 定点 数 格式 加 法 
(n.m) + (r.s) 中 ,进行 加 运算 之 前 应 确保 nn =r 且 m=s， 正 如 我 们 在 2.7.1 节 看 到 的 那样 。 

例如 ， 考 察 十 进 制 数 0. 824 x 10” +0.992 x 10" 。 为 了 使 运算 简单 ， 必 须 让 两 个 指数 相同 ， 
然后 就 可 以 简单 地 进行 尾数 相 加 了 。 但 是 我 们 是 把 它们 都 转换 为 1 、10`， 还 是 中 间 的 某 个 
值 ， 如 10 ? 

为 了 回答 这 个 问题 ， 让 我 们 首先 看 一 下 如 何 将 指数 的 阶 向 下 转换 。 我 们 知道 10: 的 值 等 于 
10 x10" ，10” 的 值 等 于 100 x 10" ， 由 于 我 们 在 谈论 十 进 制 ， 所 以 每 次 降低 指数 的 阶 时 都 是 给 尾 
数 乘 以 基数 值 10。 在 我 们 的 计算 中 执行 后 得 到 的 和 如 下 : 

0. 824 x102 +99.2 x10 
相反 ， 向 上 转换 为 10* 的 值 等 于 0.01 x 10" ， 因 此 和 为 : 
0. 008 24 x 10* +0. 992 x10” 

因此 问题 仍然 是 : 我 们 采取 哪个 操作 ? 是 转换 较 小 的 指数 以 匹配 较 大 的 ， 还 是 把 较 大 的 指 
数 转换 为 较 小 的 ， 还 是 转换 为 中 间 的 某 个 ? 

首先 ， 我 们 并 不 愿意 把 两 个 数 都 进行 转换 ， 因 为 那样 会 带 来 额外 的 工作 ; 其 次 ， 考虑 二 进 
制 位 ， 我们 知道 把 一 个 指数 变 小 就 需要 相应 地 把 尾数 变 大 ， 显 然 尾 数 变 得 太 大 时 会 有 溢出 的 风 
险 。 因 此 我 们 选择 从 不 增 大 尾数 ， 这 意味 着 我 们 不 得 不 增加 较 小 的 那个 指数 ， 并 把 其 相应 的 尾 
数 变 小 : 

0. 008 24 x 10° +0.992 x10” 

这 就 是 所 谓 的 指数 等 值 或 归 一 化 操作 。 稍 后 ， 我 们 将 看 到 有 一 些 方法 有 助 于 防止 尾数 在 此 
变换 过 程 中 向 下 舍 人 为 零 。 

一 旦 指数 相等 ,我 们 就 可 以 执行 尾数 相 加 : 

0. 008 24 x 10* + 0.992 x 10* = (0.008 24 +0.992) x 10° 

IEEE754 的 加 减 运 算 类 似 于 十 进 制 情况 ， 只 是 因为 基数 是 2， 将 其 中 一 个 指数 增加 到 和 男 
一 个 指数 相同 的 操作 会 导致 这 个 数 的 尾数 以 2 为 因子 递减 。 在 二 进 制 中 除 以 2 可 以 通过 右 移 一 
位 完成 。 

还 有 一 个 因素 我 们 必须 考虑 到 ， 就 是 结果 的 格式 。 注 意 ， 规格 化 模式 中 尾数 不 能 大 于 1， 
因此 ， 如 果 尾 数 的 计算 结果 太 大 ， 我 们 必须 右 移 尾 数 并 相应 地 增加 指数 。 类 似 地 ， 如 果 尾 数 变 
小 , 则 必须 左 移 尾数 并 相应 地 减 小 其 指数 。 这 些 因素 我 们 将 通过 框 2. 26 中 的 实例 阐明 。 
4 浮 点 运算 实例 

问 : 将 十 进 制 值 20 和 120 转换 为 IEEE754 格式 ， 将 它们 相 加 并 将 结果 转换 为 十 进 制 。 

答 : 在 2.8.4 节 中 查找 精度 表 ， 发 现 两 个 值 都 位 于 IEEE754 的 规格 化 数 范围 内 ， 但 最 初 我 们 只 考虑 
通用 的 4x224 格式 ,这 里 并 不 关注 确切 的 IEEE754 位 模式 。 只 是 简单 记 住 4=(1+5) 和 B=(E-127)。 

先 从 20 开始， 反复 除 以 2 直到 结果 在 1 和 2 之 间 : 10, 5, 2.5, 1.25， 因 此 4=1.25。 共 除了 4 次， 
故 B=4。 

120 同样 ， 除 以 2 后 依次 为 60，30，15, 7.5,，3.75,，1.875, 故 A=1.875。 除 了 6 次 ,所 以 B=6。 

将 结果 放 到 下 表 中 ， 在 这 一 阶段 我 们 并 不 需要 得 出 E 和 S 的 位 模式 ， 我们 更 关注 它们 的 表示 : 


o BB | A - 二 进 制 什 十 进 制 什 
0 4 1 站 1.25 x24 
0 6 1. 875 1. 875 x25 


下 一 步 是 指数 归 一 化 。 如 正文 中 描述 的 ， 让 它们 都 等 于 较 大 的 指数 值 ， 把 较 小 的 数 对 应 的 尾数 适当 减 小 
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因此 ，1.25 x24 变 成 0.625 x25 ， 再 变 成 0.3125 x25， 重 新 形成 下 表 中 的 操作 数 : 








o | Bs | A 二 进 制 什 十 进 制 什 
0 6 0. 3125 0. 3125 x25 20 
0 6 1. 875 1. 875 x2° 120 


由 于 两 个 指数 相等 ,现在 可 以 进行 尾数 相 加 ， 进 而 得 到 结果 如 下 : 























o B | 4 二 进 制 值 | 十 进 制 值 
0 6 2. 1875 2, 1875 x2° » 


但 是 ， 这 不 是 下 EE754 的 合法 表示 ， 因 为 尾数 值 太 大 了 。 还 记得 公式 中 的 (1 +5) 吗 ? 是 的 , 4=(1+ 
S) <2 是 我 们 的 约束 。 如 果 两 个 操作 数 都 是 IEEE754 兼容 的 ， 那 么 我 们 应 该 能 够 保证 不 需要 移 位 超过 一 
位 以 上 就 能 正确 表示 这 个 数 ， 因 此 我 们 将 4 的 值 右 移 一 个 二 进 制 位 ， 并 增加 B 的 值 ; 


o B A 二 进 制 值 十 进 制 值 
0 7 1.093 75 1. 093 75 x27 


用 计算 器 检查 可 知 ，1.093 75 x2” 的 确 是 正确 答案 ， 其 十 进 制 为 140。 数 字 转 换 为 [EEE754 格式 的 过 程 将 
在 框 2.27 中 介绍 。 

现在 我 们 进一步 看 这 个 过 程 。 知 道 了 如 何在 执行 运算 之 前 把 指数 归 一 化 ， 可 以 结合 我 们 掌 
握 的 正 EE754 格式 知识 ， 直 接 在 正 EE754 格式 上 执行 这 些 运 算 。 

参考 框 2. 26 中 的 实例 ， 我 们 现在 可 以 写 下 数 的 正 EE754 位 模式 ， 并 在 框 2.27 中 进行 
转换 。 
IEEE754 运算 实例 

首先 ， 看 规格 化 模式 公式 : 























w= 
以 十 进 制 的 20 为 例 ， 在 前 面 的 实例 中 ， 它 被 表示 为 1.25 x2*。 代 入 公式 中 得 到 (1+5S) =1.25, 则 S= 
0.25; (-127) =4， 则 =131。 表 示 如 下 : 





[Lo T10000011 | 01000000000000000000000 | 
十 进 制 的 120 是 1.875 x2*， 因此 S=0.875 且 E=133。 


0 10000101 11100000000000000000000 | 

加 法 的 结果 是 1.09375x2 ,因此 S=0.09375 和 且 E=134。 

由 于 0. 093 75 不 是 一 个 明显 的 2 的 备 的 定点 数 ， 我们 可 以 使 用 普通 的 方法 来 确定 位 模式 。 在 此 ， 我 
们 不 断 地 乘 以 值 2， 当 结果 等 于 或 大 于 1 时 减 去 1， 当 余下 数 为 零 时 结束 : 

0: 0. 093 75 

1: 0.0187 

2: 0. 375 

3 轴 允 

4: 1.5-1=0.5 

5: 1-1=0 

我 们 在 第 4 和 5 次 迭代 时 减 掉 了 1， 据 此 将 左 起 第 4、5 位 设置 为 1。 事实 上 ， 我 们 也 可 以 用 这 种 方 
法 计算 最 前 面 的 两 个 数 ， 但 它们 太 简 单 了 : 


[0o T10000110 | 00011000000000000000000 


减法 同 加 法 相似 ， 所 有 的 步骤 都 相同 ， 除 了 尾数 是 对 应 相 减 外 。 当 然 ， 我 们 还 要 考虑 结 

















基础 知识 41 








果 尾 数 的 溢出 问题 ， 因 为 可 能 会 进行 两 个 负数 相 减 ,那么 结果 会 大 于 任何 一 个 原来 的 操 
作 数 。 


2. 9.2 1IEEE754 数 的 乘除 运算 
对 于 乘法 和 除法 运算 ， 我 们 不 需要 先 规格 化 操作 数 ， 但 需要 对 这 两 个 数 进行 两 个 计算 : 一 
个 是 对 尾数 的 ; 一 个 是 对 指数 的 。 下 面 是 基 为 B 的 数 的 运算 关系 : 
(AxB’°)x (DxB:)= (AxD) xB'® 
(AxB’)/(D xB’) = (A/D) x B'°® 
以 一 个 十 进 制 数 为 例 说 明 此 点 : 
(0.824 x 10’°) x (0.992 x 10*) = (0.824 x 0.992) x 10°* = 0.817 408 x 10° 
这 里 还 是 有 一 个 因素 需要 考虑 ， 在 IEEE754 格式 下 ， 结 果 必 须 转 换 为 正确 的 表示 格式 ， 且 
应 检查 是 否 为 特殊 结果 值 ( 零 、 无 穷 大 、NaN ) 。 


2.9.3 1IEEE754 中 间 格 式 
虽然 在 一 个 特定 的 IEEE754 标准 计算 中 ， 其 输入 输出 是 正 EE754 标准 格式 的 操作 数 ， 但 还 
是 会 出 现 输出 结果 数字 不 正确 的 情况 ， 除 非 在 计算 中 有 非常 高 的 精度 。 一 个 9 位 减法 的 小 例子 
将 说 明 这 点 : 
1. 0000 0000 x2) A 
= 下 -这 对 得 通 x2° B 
在 我 们 进行 减法 之 前 ， 仍 然 有 必要 把 这 两 个 数 规格 化 为 相同 的 指数 ,我 们 通过 增加 较 小 的 
指数 来 完成 ， 正 如 在 2. 9. 1 节 所 做 的 那样 : 
1. 0000 0000 x2! A 
=0, 本 过 于 术 六 加 B 
现在 我 们 可 以 进行 计算 ,结果 如 下 : 


0. 0000 0001 x2 ©€ 
然后 把 尾数 尽量 左 移 : 
1. 0000 0000 Xa 


让 我 们 看 一 下 实际 使 用 的 几 个 数字 。 操 作 数 A 的 值 为 2.0， 操 作 数 B 的 值 为 (2.0 -2”) ， 
即 十 进 制 的 1.996 093 75。 因 此 结果 应 该 是 : 
2. 0 -1. 996 093 75 =0. 003 906 25 
然而 ， 我 们 计算 的 结果 是 1 x2 ”或 0.007 812 5， 一 定 是 哪里 出 了 问题 。 
现在 我 们 重新 计算 ,但 这 次 在 中 间 阶 段 加 上 一 个 所 谓 的 看 守 位 ( guard bit) 。 通 过 在 最 低 
位 这 边 增 加 一 位 ， 有 效 地 扩展 了 尾数 的 长 度 。 我 们 从 规格 化 数字 这 点 重新 开始 ， 注 意 额 外 的 这 
= 
1.0000 0000 0 区 去 A 
-1.1111 1111 0 Rr B 
接 下 来 规格 化 指数 ， 将 B 的 尾数 右 移 一 位 时 ， 其 最 低位 移 到 看 守 位 : 
1. 0000 0000 0 X22 A 
-0.1111 1111 1 x B 


进行 减法 后 的 结果 如 下 : 
0. 0000 0000 1 x2! 区 


再 把 尾数 尽量 左 移 : 
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1. 0000 00000 x 

注意 C 这 一 行 ， 这 次 其 为 1 的 最 高 位 是 看 守 位 ， 而 之 前 是 在 前 一 位 。 规 格 化 值 为 1 x2 ”或 
0. 000 390 65 ， 这 次 结果 正确 。 

尽管 这 个 例子 示意 了 一 般 的 8 位 浮 点 数 ， 但 对 正 EE754 数 来 说 规则 是 相同 的 。 

上 面 的 例子 显示 了 减法 中 由 于 精度 丢失 错误 导致 的 结果 错误 。 当 然 同 样 的 错误 也 可 能 会 发 
生 在 加 法 中 ， 因 为 A-B 和 A+(-B) 是 一 样 的 。 但 在 乘法 和 除法 中 也 会 发 生 吗 ? 这 留 给 读者 
作为 练习 ， 请 试 着 找 出 一 个 简单 例子 来 说 明 这 个 问题 。 

在 IEEE754 术语 中 ， 用 到 不 止 一 个 看 守 位 ， 这 个 方法 称 为 扩展 中 间 格 式 ， 由 下 面 的 位 宽 进 
行 标准 化 : 


名 称 位 宽 符号 位 (C) 位 宽 指数 (E) 位 宽 ， | 尾数 (5) 位 宽 
扩展 单 精度 | 43 1 11 31 
15 


扩展 双 精 度 7 ® 


显然 用 计算 机 去 处 理 43 位 或 79 位 的 数字 比较 是 做 ， 因 为 计算 机 是 基于 8 位 一 组 的 二 进 制 
数字 尺寸 的 ， 但 这 通常 并 不 是 问题 ， 因 为 扩展 中 间 格 式 是 用 于 硬件 浮 点 运算 单元 的 。 输 入 操作 
数 和 输出 操作 数 仍 然 是 32 位 或 64 位 的 。 


2.9.4 舍 入 


有 时 ， 为 了 把 一 个 扩展 中 间 值 表示 成 想 要 的 输出 格式 ， 需 要 对 其 进行 伟人 。 其 他 情况 ， 如 
从 双 精 度 格式 变 为 单 精度 格式 时 也 可 能 需要 舍 入 。 有 时 舍 入 是 定点 数 和 浮 点 数 计算 所 必需 的 。 

有 不 止 一 种 方法 可 以 完成 数字 的 舍 和 信 ， 在 操作 系统 控制 下 ,许多 计算 机 系统 都 支持 其 中 的 
一 种 或 多 种 : 

。 舍 人 到 最 接近 (最 常用 ) 的 一 一 伟人 到 最 接近 的 表示 值 ， 如 果 两 个 值 都 一 样 近 ， 默 认 

伟人 为 LSB =0 的 那个 值 。 例 如 ，1. 1 伟人 到 1，1.9 伟人 到 2，1.5 伟人 到 2。 

e 问 上 舍 人 一 一 伟人 到 更 大 的 一 个 数 ， 例 如 -1.2 舍 人 到 -1，2.2 伟 人 到 3。 

e 向 下 伟人 一 一 伟人 到 更 小 的 一 个 数 ， 例 如 -1.2 舍 人 到 -2, 2.2 舍 人 到 2。 

。 向 零售 人 一 一 相当 于 始终 截断 要 伟人 的 部 分 ， 例 如 -1.2 舍 人 到 -1，2.2 舍 人 到 2。 

对 于 非常 高 精度 的 计算 ， 可 以 对 每 个 计算 执行 两 次 ， 一 次 向 上 舍 人 ， 一 次 向 下 伟人 。 两 次 
结果 的 平均 值 可 能 是 答案 (至少 在 线性 系统 中 是 )。 尽 管用 这 种 方法 得 不 到 一 个 高 精度 的 答 
案 ， 但 得 到 的 两 个 结果 的 差异 可 以 为 确定 计算 中 数值 的 精度 提供 好 的 建议 。 


2.10 小 结 


本 章 标题 是 “基础 知识 ”， 我 们 的 计算 机 之 旅 从 这 里 真正 开始 一 一 无 论 面向 的 是 一 个 房间 
大 小 的 大 型 机 还 是 一 个 台式 机 或 散人 式 系统 。 本 章 也 是 基础 ， 因 为 几乎 所 有 的 计算 机 ， 无 论 其 
大 小 ， 都 是 基于 类 似 的 规则 。 它 们 使 用 相同 的 数字 格式 ， 执 行 同样 类 型 的 计算 , 如 加 、 减 、 
乘 、 除 。 我 们 看 到 的 主要 区 别 就 是 存在 一 些 更 快 的 方法 来 完成 这 些 运 算 ， 但 以 增加 复杂 性 、 面 
积 、 功 耗 为 代价 。 

我 们 以 对 计算 机 的 定义 及 其 组 成 的 考虑 开始 本 章 。 我 们 介绍 了 Flynn 提出 的 计算 机 类 型 
(或 CPU) 的 分 类 ， 学 习 了 连接 关系 及 所 包含 的 功能 层次 。 然 后 我 们 更 新 了 数字 格式 和 基本 运 
算 的 知识 ， 之 后 介绍 了 一 些 更 详细 的 关于 如 何 计算 的 知识 。 

本 章 已 经 涵盖 了 基础 知识 ， 下 一 章 将 侧重 于 讲解 如 何 获得 连接 和 计算 ， 即 如 何在 一 个 CPU 
中 将 这 些 功能 单元 放 在 一 起 ， 编 写 和 存储 程序 ， 控 制 所 需 的 内 部 操作 。 
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思考 题 
2.1 一 个 程序 员 撰写 一 个 C 语言 程序 , 将 4 个 字 节 (b0、bl、b2、b3) 存储 到 连续 的 内 存 空 间 ， 在 有 

















32 位 宽 内 存 的 小 尾 端 计算 机 中 运行 。 如 果 他 在 程序 运行 后 检查 内 存 ， 他 能 够 看 到 像 下 表 中 A 或 B 
这 样 的 数 吗 ? 
bit31 bit 0 
A: [到 [ b2 | bl Tb |] 
B: [pb |bl | po | _b3 | 
2.2 完成 下 表 (8 位 二 进 制 数 ) ， 不 能 进行 转换 的 请 标 出 。 
值 无 符号 数 




















2.3 采用 补 码 (2.30) 格式 ， 我 们 如 何 表 示 值 0.783 203 125? 能 够 用 32 位 、16 位 或 8 位 位 宽 精 确 表 
示 吗 ? 

2.4 一 个 BCD 码 数字 包含 4 位 。 使 用 4 位 行 波 进位 加 法 器 ， 用 额外 的 一 位 加 法 器 和 由 辑 门 进 行 改进 ， 
搭建 出 一 个 新 加 法 器 ， 使 其 能 够 完成 两 个 一 位 BCD 数字 加 法 并 产生 BCD 格式 的 和 。 扩 展 本 设计 ， 
使 之 能 够 完成 两 个 4 位 BCD 数 的 加 法 。 

2.5 使 用 部 分 积 〈 长 乘法 ) 方法 ， 手 动 完 成 两 个 4 位 二 进 制 数 X=1011 和 Y=1101 的 乘法 ， 假 设 它们 
都 是 无 符号 数 。 

2.6 使 用 Booth 算法 重 做 2.5 题 。 

2.7 ”如果 加 、 移 位 和 比较 操作 ， 每 个 需要 一 个 CPU 周期 完成 ， 那 么 执行 2. 5 题 中 的 计算 需要 多 少 个 CPU 
周期 ? 将 其 和 2.6 题 中 的 Booth 算法 相 比较 ， 在 大 字 宽 运算 时 Booth 算法 更 有 效 吗 ? 

2.8 在 RISC CPU 中 有 一 条 指令 称 为 “MUL”， 它 能 将 两 个 寄存 器 中 的 内 容 相 乘 并 把 结果 存储 到 第 三 个 寄 
存 器 。 寄 存 器 是 32 位 宽 ， 存 储 的 结果 是 64 位 逻辑 结果 的 前 32 位 (请 注意 32 位 x32 位 应 该 得 到 64 
位 )。 但 是 程序 员 想 得 到 全 部 64 位 结果 ， 他 怎样 才能 得 到 呢 ? 验证 你 的 方法 ， 确 定 需要 多 少 指令 。 
提示 : 你 需要 做 不 止 一 次 的 乘法 ， 以 及 一 些 与 和 加 运算 来 得 到 结果 。 

2.9 ”如 果 我 们 进行 两 个 (2.6) 格式 无 符号 数 X=11010000 和 站 =01110000 的 乘法 ， 那 么 我 们 将 得 到 一 
个 (4.12) 格式 的 结果 。 将 结果 左 移 2 位 ， 变 成 (2. 14) 格式 〈 即 有 效 地 去 除 前 两 位 ) ， 然 后 再 截 
取 到 (2.6) 格式 (丢弃 低 8 位 ) 。 这 样 会 导致 溢出 吗 ? 截断 会 丢失 某 些 位 吗 ? 

2.10 按照 IEEE754 单 精度 浮 点 数 标准 : 

(a) 给 出 在 下 面 的 情况 中 ,以 (ogo, E，S) 格式 存储 的 数 的 值 : 
i.E=255, S#0 
ii.E=255, $=0 
li.0<E<255 
ily.E=0, $0 
V.E=0, S$S=0 
(b) 以 IEEE754 单 精度 规格 化 格式 表示 下 列 值 : 
5 
这 . 1/32 

2.11 采用 标准 指数 /尾数 的 浮 点 数 格式 能 够 以 多 于 一 种 的 方式 表示 零 吗 ?IEEE754 能 够 以 多 于 一 种 的 方 

式 表示 零 吗 ? 如果 是 ， 给 出 并 解释 不 同 的 表示 方式 。 
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根据 图 2-9 所 示 的 除法 流程 图 ， 给 出 下 面 运算 的 商 和 余数 值 : 无 符号 5 位 二 进 制 除法 QM， 其 中 
Q=10101b 上 且 M =00011b。 
根据 图 2-7 给 出 的 乘法 流程 图 ， 部 分 积 乘法 执行 两 个 无 符号 5 位 二 进 制 数 00110 和 00101 的 相 乘 。 
请 给 出 两 种 方法 用 到 的 寄存 器 数量 、 大 小 以 及 每 一 次 迭代 时 寄存 器 的 值 。 
根据 图 2-8 给 出 的 乘法 框图 重 做 上 面 的 问题 ， 比 较 这 两 种 方法 在 效率 、 步 又 数 、 寄 存 器 的 数量 等 
方面 的 情况 。 
考察 在 C 编程 语言 中 下 面 的 运算 : 

0.25 + (float) (9 x 43) 
假设 整数 采用 16 位 二 进 制 数 表示 ， 浮 点 数 采用 32 位 下 EE754 单 精度 格式 表示 ， 请 按照 执行 计算 
所 需要 的 步骤 产生 符合 正 EE754 格式 的 结果 。 
说 明 下 面 描述 的 处 理 器 属于 Michael Flynn 分 类 的 哪 一 种 : 有 一 条 指令 可 以 同时 将 一 组 5 个 内 部 寄 
存 器 的 每 个 字 节 右 移 一 位 。 
判断 自修 改 代码 (是 一 种 软件 ， 通 过 重 写 它 的 部 分 代码 可 以 修改 它 自 己 的 指令 ) 更 适合 冯 “' 诺 依 
曼 体系 结构 系统 还 是 哈佛 体系 结构 系统 。 
使 用 一 个 16 位 处 理 器 且 只 有 一 个 结果 寄存 器 ,按照 过 程 将 (2.14) 格式 无 符号 数 X = 
01. 11000000000000 和 “(1. 15) 格式 无 符号 数 Y = 0. 110000000000000 相 加 。 为 避免 结果 溢出 应 该 
采用 什么 格式 ? 本 例 中 的 计算 有 任何 精度 损失 吗 ? 
识别 下 列 数字 是 正 EE754 模式 的 哪 一 种 : 


| 1 | 10100010 10100000000000000000000000 
| 0 | 00000000 10100000000000000000000000 
[1o [1111111 |o00000000000000000000000000 


按照 基数 为 7 进行 下 列 计算 和 表示 ， 结 果 的 尾数 和 指数 会 怎样 ? 

(3 KI NAG KT 
提示 : 你 不 需要 使 用 计算 器 来 得 到 结果 。 
使 用 部 分 积 (长 乘法 ) 方法 ,手动 计算 两 个 6 位 二 进 制 数 X=100100 和 Y=101010 的 相 乘 结果 ， 
假设 二 者 都 为 有 符号 数 。 
交换 前 面 题目 中 的 乘 数 和 被 乘 数 〈 即 两 个 6 位 有 符号 二 进 制 数 X=101010 和 Y=100100)， 重 新 完 
成 乘法 。 比 较 执行 部 分 积累 加 所 需 的 加 法 数量 。 是 否 有 可 能 通过 交换 乘 数 和 被 乘 数 来 简化 这 个 过 
程 ? 如 果 有 ， 为 什么 ? 
使 用 Booth 算法 重 做 上 面 两 个 乘法 ， 当 交换 乘 数 和 被 乘 数 后 ， 部 分 积累 加 的 数量 是 否 有 所 不 同 ? 
参考 2. 9 节 ， 执 行 一 个 单 精度 正 EE754 浮 点 规格 化 数 的 乘法 时 ， 确 定 所 需 的 整数 加 法 、 移 位 和 乘 
法 操作 的 数量 ， 将 其 和 运行 一 个 (2. 30) x (2. 30) 格式 乘法 时 所 需 的 基本 操作 数量 进行 比较 。 本 
题 忽略 扩展 中 间 模 式 、 洲 出 和 饱和 效应 ， 并 假设 两 个 浮 点 数 是 不 同 的 指数 值 。 
使 用 减法 迭代 来 执行 一 个 8 位 除法 ,需要 多 少 计算 操作 ? 
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在 第 1 章 中 , 我 们 主要 根据 计算 机 的 外 部 特征 〈 大 小 、 规 模 、 处 理 能 力 、 通 用 性 ) ， 按 照 
其 发 展 轨迹 探索 计算 机 ， 从 大 规模 计算 机 到 小 规模 计算 机 ， 最 后 再 回 到 大 规模 计算 机 。 第 2 章 
是 从 内 部 探索 ， 研 究 是 什么 可 以 使 一 个 设备 称 为 计算 机 ， 其 中 研究 了 数字 格式 、 二 进 制 算术 ， 
简要 提 及 了 计算 类 型 和 CPU 控制 ， 然 后 介绍 了 算术 逻辑 单元 ( ALU) 和 乘法 器 等 功能 单元 的 
概念 。 在 本 章 中 ， 将 更 详细 地 介绍 计算 机 的 大 脑 一 一 中 央 处 理 单元 (CPU) 以 及 它 是 如 何 完成 
执行 计算 、 处 理 指令 的 任务 的 ， 更 重要 的 是 研究 它 如 何 控制 计算 机 中 的 所 有 内 容 。 本 章 将 侧重 
介绍 计算 机 体系 结构 的 传统 观点 ， 既 不 会 考虑 现在 最 先进 的 扩展 和 加 速 (这 些 将 在 第 5 章 中 介 
绍 ) ， 也 不 会 对 计算 机 中 的 单个 功能 单元 进行 深入 的 讲解 〈 这 会 在 第 4 章 中 具体 讲述 ) 。 相 反 ， 
本 章 将 关注 计算 机 是 由 什么 构成 的 ， 各 部 分 是 如 何 组 织 和 被 控制 的 以 及 它 是 如 何 编程 的 。 


3.1 什么 是 计算 机 

当 普 通 人 想到 CPU 时 ， 经 常会 想到 一 个 带 有 显示 器 、 键 盘 和 鼠标 的 米色 盒子 。 虽 然 他 们 
想象 的 盒子 确实 包含 一 个 CPU， 但 除 此 之 外 还 有 很 多 其 他 的 部 件 。 许 多 人 可 能 还 没有 意识 到 他 
们 的 智能 手机 以 及 数字 手表 内 部 都 有 类 似 的 CPU， 甚 至 在 现代 的 冰箱 或 真空 吸尘器 内 也 有 ( 尽 
管 这 些 CPU 可 能 远 没有 那么 复杂 ) ! 

系统 中 的 “计算 机 ”部 分 包括 CPU、 存 储 子 系统 和 连接 它们 的 总 线 一 一 实际 上 正 是 这 几 
部 分 构成 了 以 存储 程序 来 执行 功能 的 数字 计算 机 。 它 并 不 需要 显卡 、 无 线 接口 卡 、 硬 盘 和 音响 
系统 来 计算 或 执行 所 存储 的 程序 。 存 储 程序 的 数字 计算 机 可 以 说 是 一 个 非常 灵活 但 又 相当 基本 
的 数据 计算 和 传输 的 机 器 ， 通 过 编程 来 实现 需要 的 功能 。 

如 今 ， 在 科技 发 达 的 地 区 ， 人 们 常 被 十 几 台 或 上 百 台 计算 机 包围 。 它 们 可 能 在 微波 炉 中 、 
烤 炉 中 、 手 机 中 、MP3 播放 器 中 ， 甚 至 是 电子 门 锁 中 。 据 估计 ， 一 辆 豪华 汽车 含有 超过 100 个 
处 理 器 ， 甚 至 一 个 人 门 机 型 都 可 能 包括 不 止 40 个 单独 的 设备 。 然 而 ， 即 使 是 今天 ， 最 基本 的 
车 辆 也 可 能 有 超过 100 个 处 理 融 一 一 现代 汽车 中 的 各 个 灯泡 都 包含 内 置 CPU， 当 灯泡 发 生 故 障 
时 ， 能 够 通过 控制 器 区 域 网 络 (CAN 总 线 ) 向 车 辆 控制 单元 发 送信 号 。 安 全 气 宫 ， 转 向 、 气 
体 和 温度 传感器 ， 压 力 监 控 器 ,气流 监控 器 和 雨 刮 器 都 是 包含 微 处 理 器 的 设备 。 

这 种 使 用 规模 不 仅 限 于 汽车 一 一 在 智能 家 居 、 工 业 系统 、 现 代 医 疗 保健 、 金 融 、 教 育 、 发 
电 、 配 电 ， 甚 至 农业 等 领域 也 同样 采用 肯 人 式 系统 。 可 能 很 容易 预见 计算 机 的 未 来 是 嵌入 式 
的 。 本 章 的 内 容 适 用 于 各 种 计算 机 ， 无 论 是 房间 大 小 的 ， 还 是 蚂蚁 大 小 的 ， 并 通过 展示 案例 来 
进行 补充 。 本 书 中 的 很 多 案例 使 用 的 是 ARM 处 理 器 。 正 如 将 在 本 章 中 看 到 的 那样 ，ARM 一 开 
始 并 没有 像 嵌 入 式 CPU 一 样 普及 【事实 上 , “ 岩 入 式 系统 ”这 个 术语 在 当时 也 没有 被 普遍 使 
用 ) ， 但 在 过 去 的 几 年 里 ， 它 凭借 规律 性 和 架构 、 功 耗 方面 的 优势 使 得 每 个 领域 都 将 其 作为 新 
嵌入 式 系 统 处 理 器 的 首选 。 


3.2 让 计算 机 为 你 服务 


正如 我 们 所 看 到 的 ， 在 最 基本 的 层面 ， 计 算 机 只 是 一 个 能 够 传输 数据 和 执行 逻辑 操作 的 单 
元 。 所 有 更 高 级 别 的 计算 功能 都 是 由 这 些 基 本 数据 传输 和 逮 辑 运算 构成 的 一 个 序列 或 组 合 。 计 
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算 机 内 各 种 各 样 的 单元 模块 用 于 执行 不 同 的 任务 ， 而 这 些 是 非常 标准 的 组 成 模块 ， 被 大 多 数 计 
算 机 所 采用 。 例 如 ， 一 个 算术 逻辑 单元 (ALU) 执行 算术 运算 ， 而 一 个 总 线 用 来 从 一 点 到 另 一 
点 传输 数据 。 类 似 地 ， 存 储 器 存储 将 数据 项 提供 给 特定 位 置 ， 需 要 时 对 其 进行 再 次 检索 。 图 形 
显示 获取 数据 项 (例如 表示 单个 像素 的 整数 ) ， 将 其 映射 到 屏幕 上 的 特定 位 置 ， 并 且 显 示 器 对 
这 个 数值 进行 解释 以 改变 该 像素 的 颜色 和 强度 。 所 有 这 些 例子 都 表明 ， 计 算 机 的 本 质 只 是 一 个 
移动 或 转换 数据 的 设备 。 

显然 ， 需 要 一 些 方法 来 指导 计算 机 ， 比 如 决定 何 时 移动 数据 、 移 动 数据 的 位 置 以 及 要 对 其 
执行 的 逻辑 操作 。 计 算 机 (包括 其 内 部 单元 和 总 线 ) 必须 通过 编程 以 执行 我 们 希望 它 能 够 承 
担 的 工作 。 

作为 第 一 步 ， 需 要 将 要 完成 的 工作 拆 分 为 一 系列 可 行 的 操作 。 这 样 的 一 个 序列 称 为 程序 ， 
并 且 每 个 操作 是 通过 指令 加 操作 数 来 发 布 命令 。 计 算 机 中 能 够 支持 的 操作 列表 称 为 指令 集 。 

第 8 章 将 讨论 编程 计算 机 的 各 种 方法 ， 但 是 现在 则 专注 于 允许 程序 运行 的 计算 机 内 部 。 


3.2.1 程序 存储 


程序 中 的 所 有 指令 需要 以 一 种 可 被 计算 机 访问 的 方式 存储 。 最 初 的 电子 计算 机 是 通过 将 导 
线 插入 不 同 的 插 孔 来 编程 的 。 后 来 ， 使 用 手动 转换 ， 随 后 又 使 用 自动 的 打 孔 式 读 卡 器 ， 穿 孔 之 
后 磁带 被 发 明 出 来 ， 但 是 不 管 是 哪 种 存储 格式 ， 每 一 次 上 电 之 后 的 新 编程 都 需要 手动 输入 。 

现代 计算 机 将 程序 存储 在 磁盘 、ROM、EEPROM 、 闪 存 或 类 似 的 媒体 上 。 程 序 总 是 在 执行 
前 从 存储 设备 读 取 到 RAM 中 ， 这 是 因为 RAM 比 大 多 数 的 大 容量 存储 设备 速度 更 快 。 

在 内 存 中 存储 的 条 目 需要 有 一 个 能 够 访问 的 位 置 。 这 个 存储 的 位 置 也 需要 被 标识 ， 这 样 才 
能 进行 访问 。 早 期 的 计算 机 设计 者 称 存储 的 位 置 为 地 址 ， 因 为 这 让 CPU 可 以 选择 和 访问 任何 
存放 在 独立 地 址 中 的 指定 的 信息 或 程序 代码 。 实 现 这 件 事 最 有 效 的 方式 就 是 由 CPU 通知 存储 
设备 它 要 访问 的 地 址 ， 然 后 等 待 该 地 址 的 内 容 ， 在 一 段 时 间 后 从 设备 接口 读 取 这 个 内 容 值 。 当 
CPU 希望 从 存储 器 中 读 取 数据 时 ， 它 会 告诉 内 存 查找 哪个 地 址 ， 然 后 等 待 内 存 检索 内 容 并 将 其 
提供 给 CPU s 。 

大 家 知道 ，CPU 的 编程 用 最 低级 的 机 器 代码 指令 完成 ， 这 些 指令 或 者 是 定 长 的 〈 在 大 多 数 
RISC 机 器 中 ， 如 ARM、PIC 或 MIPS), 或 者 是 指令 字 长 度 可 变 的 (在 一 些 CISC 机 器 中 ， 如 
Motorola 68000 ) 。 程 序 是 按 特定 序列 排列 的 指令 簇 ， 用 来 指示 计算 机 执行 所 要 求 的 任务 。 

执行 这 些 指 令 序列 完成 正确 的 工作 ， 可 能 需要 访问 一 些 需 要 处 理 的 数据 。 历 史上 曾经 主张 
将 程序 存储 空间 和 数据 存储 空间 分 离 ， 特 别 是 因为 这 两 种 类 型 的 信息 有 不 同 的 特点 : 程序 通常 
是 顺序 且 只 读 的， 而 数据 可 能 需要 读 / 写 双向 访问 ， 而 且 对 数据 的 访问 可 能 是 按 顺序 的 也 可 能 
是 随机 方式 。 


3. 2.2 存储 架构 
一 个 计算 机 中 的 所 有 存储 位 置 都 可 以 被 定义 成 “存储 器 "， 因 为 一 旦 写 入 它们 就 记得 写 入 


的 值 。 然 而 ,通常 情况 下 ， 我 们 提 到 这 个 术语 时 指 的 是 固态 的 RAM 和 ROM， 而 不 是 寄存 器 、 
光盘 等 。 无 论 是 哪 一 种 命名 约定 ， 对 存储 器 的 定义 都 由 不 同 的 权衡 和 技术 选择 来 决定 ， 包 括 以 





加 ”读者 可 能 会 想 知道 ， 为 什么 CPU 首先 需要 使 用 外 部 存储 器 来 存储 和 检索 项 目 。 答 案 是 ， 尽 管 计算 机 具有 很 
多 内 置 寄存 器 ， 访 问 速度 也 非常 快 ， 但 这 些 相对 昂贵 的 CPU 部 件 在 实际 运行 程序 时 ， 几 乎 永远 无 法 提供 足 
够 的 存储 容量 (ARM 只 有 16 个 寄存 器 ， 每 个 寄存 器 可 以 容纳 一 个 整数 ) 。 实 际 上 ， 即 使 单个 程序 也 可 能 需 
要 更 多 的 存储 空间 。 甚 至 ， 现 代 CPU 可 能 同时 在 成 百 上 千 个 单独 的 程序 之 间 进行 多 任务 处 理 ， 所 以 额外 的 
存储 器 是 必 不 可 少 的 。 
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下 几 个 特点 : 

。 成 本 。 
密度 〈 每 立方 厘米 的 字 节 数 ) 。 
电源 效率 。 
访问 速度 (包括 寻 道 时 间 和 平均 访问 时 间 )。 
访问 大 小 ( 字 节 、 字 、 页 等 )。 

易 失 性 即 数据 在 设备 断 电 后 丢失 ) 。 
可 靠 性 ( 它 有 移动 部 分 吗 ? 有 使 用 年 限 吗 ?) 。 
CPU 管理 代价 。 

这 些 因素 导致 存储 系统 有 一 个 层次 结构 ， 就 像 图 3-1 所 示 的 金字 塔 ， 无 论 一 个 大 的 台式 机 / 
服务 器 或 一 个 典型 的 做 入 式 系统 都 是 采用 这 种 架构 。 两 个 主题 一 一 内 存 管理 单元 (MMU ) 和 
高 速 缓存 将 在 随后 的 第 4 章 讨论 。 而 对 于 目前 本 节 的 讨论 ， 请 注意 寄存 器 一 一 距 CPU 功能 单元 
非常 近 的 临时 存储 位 置 一 一 是 最 快 的 ， 但 也 是 最 昂贵 的 资源 (因此 一 般 数量 很 少 ， 范 围 从 简单 
微 控 制 器 的 1、2 或 3 个 到 128 个 ， 在 一 些 大 型 UNIX 服务 器 中 会 更 多 ) 。 
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图 3-1 用 金字 塔 形 的 框图 在 速度 、 尺 寸 和 开销 等 方面 说 明 嵌 人 式 系统 
(左边 ) 和 传统 台式 机 (右边) 的 存储 架构 

金字 塔 从 顶 向 下 ， 每 字 节 的 成 本 逐渐 降低 ( 从 而 提供 的 数量 逐步 增加 ) ， 但 代价 是 访问 速 
度 也 随 之 降低 。 无 论 是 嵌入 式 系 统 、 台 式 机 或 超级 计算 机 ， 几 乎 都 是 包含 以 下 几 个 层次 的 一 个 
架构 : 

。 寄存 器 : 存储 程序 的 临时 变量 、 计 数 器 、 状 态 信息 、 返 回 地 址 、 堆 栈 指针 等 。 

。 RAM: 存放 堆栈 、 变 量 、 待 处 理 的 数据 ， 往 往 是 程序 代码 的 临时 存储 位 置 。 

。 非 易 失 性 存储 器 : 如 闪存 、EPROM 或 硬盘 一 一 存储 要 执行 的 程序 一 一 在 初始 上 电 启 动 

之 后 显得 特别 重要 ， 那 时 易 失 性 RAM 的 存储 空间 都 是 空 的 。 

其 他 的 存储 层次 是 为 了 方便 或 有 速度 方面 的 原因 ， 正 因为 存储 架构 中 有 这 么 多 层次 ， 有 几 
个 地 方 都 能 够 存储 所 需 的 信息 条 目 ， 因 此 ， 需 要 一 个 方便 的 手段 能 够 在 需要 的 时 候 在 各 存储 位 
置 之 间 传输 信息 。 


3.2.3 程序 传输 


为 了 把 一 个 程序 从 外 部 存储 器 读 取 到 RAM， 需 要 用 到 IO 接口 ， 如 IDE ( Integrated Drive 
一 个 非常 流行 的 硬盘 接口 ) 、SATA 总 线 (Serial Advanced Technology Attachment , 
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应 用 于 硬盘 和 外 围 设备 中 )、 其 他 的 并 行 总 线 或 串 行 总 线 (如 USB ) ， 这 些 接口 将 在 后 面 的 
6.3.2 节 和 6.3.4 节 介绍 。RAM 和 CPU 之 间 的 连接 是 通过 一 个 总 线 实现 的 ， 这 也 是 CPU 和 IO 
设备 之 间 的 连接 方式 。 在 传送 一 个 程序 时 ， 可 同时 传 一 个 字 节 或 一 个 字 。RAM 可 能 在 CPU 所 
在 的 集成 电路 (IC) 的 内 部 ， 也 可 能 在 其 外 部 ， 但 都 通过 某 种 总 线 连 接 到 CPU 。 

当 程 序 的 一 条 指令 从 RAM 读 入 CPU 后 ， 它 需要 解码 然后 被 执行 。 由 于 CPU 内 部 的 不 同 单 
元 执行 不 同 的 任务 ， 因 此 待 处 理 的 数据 需要 被 定向 到 一 个 能 够 执行 相应 功能 的 单元 。 如 果 和 希望 
在 CPU 内 部 模块 间 传输 信息 ， 则 需要 在 取 指 / 译 码 单元 和 其 他 不 同 的 处 理 单元 间 有 一 个 内 部 总 
线 ， 也 许 是 一 个 能 够 从 每 一 个 处 理 单元 收集 结果 并 把 其 送 到 某 处 的 总 线 。 

将 要 被 指令 处 理 的 数据 通常 已 经 在 内 部 寄存 器 中 ， 这 些 数 据 一 般 是 前 一 指令 的 输出 或 是 已 
经 从 外 部 存储 器 传送 到 寄存 器 中 的 。 许 多 现代 RISC CPU 具有 load-store 体系 结构 ， 其 体系 结 
构 的 约束 ， 使 得 每 个 指令 要 处 理 的 数据 必须 来 自 寄存 器 。 如 果 数 据 不 在 寄存 器 中 而 是 在 存 
储 器 中 ， 则 在 操作 发 生 之 前 需要 单独 的 指令 将 数据 从 存储 器 提取 到 寄存 器 。 这 与 其 他 CPU 
(包括 大 多 数 CISC 设备 ) 形成 对 比 ， 在 这 些 CPU 中 ， 数 据 处 理 指 令 可 以 对 驻 留 在 寄存 器 或 存 
储 器 中 的 数据 进行 操作 。load-store 在 操作 中 似乎 不 太 灵 活 ， 但 这 种 降低 的 灵活 性 是 为 了 保证 
load-store 架构 的 机 器 能 对 数据 快速 、 有 效 地 进行 处 理 。 如 果 引 入 额外 的 灵活 性 来 实现 对 存储 器 
中 数据 的 操作 ， 那 么 增加 的 复杂 性 将 导致 指令 无 法 快速 执行 ， 即 使 对 于 寄存 器 = 中 的 操作 数 也 
是 如 此 。 

load-store 机 器 处 理 数 据 时 ， 数 据 从 选 定 的 寄存 器 传输 到 并 行 总 线 上 的 相应 处 理 单元 。 然 
后 ， 计 算 结 果 将 再 次 通过 并 行 总 线 发 送 回 寄存 器 。 往 往 将 所 有 内 部 寄存 器 组 合 在 一 起 以 方便 使 
用 ， 此 外 ， 在 常规 架构 的 机 器 中 ， 每 个 处 理 单元 都 会 通过 总 线 连接 到 该 寄存 器 组 。 

在 第 4 章 中 ， 我 们 将 以 不 同 的 方式 来 研究 计算 机 总 线 ， 就 像 研 究 现代 CPU 中 许多 功能 模块 
一 样 ， 并 考虑 不 同 的 总 线 安排 对 性 能 的 影响 。 这 里 ， 我 们 假设 这 样 的 内 部 总 线 确 实 存在 ， 且 满 
足 我 们 的 要 求 。 

给 定 一 个 〈 可 能 相当 复杂 ) CPU 内 部 总 线 互 连 网 络 ， 以 及 连接 在 这 个 网 络 上 的 多 个 内 部 
功能 单元 和 寄存 器 ， 问 题 就 出 来 了 : 如 何 仲裁 和 控制 总 线 上 和 总 线 间 的 数据 传输 ? 


3.2.4 控制 单元 


多 个 总 线 、 寄 存 器 、 各 种 功能 单元 、 内 存 、L0 端口 等 都 需要 进行 控制 ， 这 就 是 控制 单元 
的 工作 职责 。 大 多 数 操作 都 需要 一 个 定义 在 CPU 内 部 的 处 理 流 程 ， 如 : 

。 取 指 。 

。 指令 译 码 。 

。 执行 指令 。 

。 指令 执行 结果 的 写 回 ( 如果 需要 )。 

控制 单元 需要 确保 这 些 步骤 按照 正确 的 顺序 执行 ， 并 且 确 保 将 所 有 的 顺序 操作 数 或 结果 的 
数据 移 人 /移出 到 适当 的 功能 单元 〈( 例 如 ， 实现 ADD 功能 ， 需 要 在 通知 ALU 执行 之 前 ， 确 保 
已 经 将 两 项 数据 提供 给 了 ALU 的 输入 ) 。 每 个 功能 单元 和 总 线 都 有 控制 端口 ， 因 此 需要 在 设备 
内 部 ， 从 某 些 控制 单元 到 需要 被 控制 的 片上 单元 之 间 ， 有 一 组 控制 线 和 信和 号 。 

在 早期 的 处 理 器 中 ， 控 制 单元 是 一 个 简单 的 有 限 状 态 机 (FSM) ， 在 预先 定义 的 几 个 状态 
之 间 无 休止 地 转换 。 控 制 线 从 该 控制 单元 以 各 种 线 和 连接 构成 的 蜘蛛 网 连接 到 需要 控制 的 每 一 





加 在 寄存 器 和 CPU 之 间 传 输 数 据 是 最 快 的 一 一 寄存 器 是 位 于 CPU 附近 的 ， 传 输 数据 非常 快 的 存储 器 。 但 直接 
从 存储 器 中 传输 数据 总 是 较 慢 的 。 然 而 ， 当 从 存储 器 访问 数据 时 ， 指 令 解 码 、 控 制 和 定时 的 过 程 会 变 得 更 
加 复杂 。 
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个 端点 。 当 CPU 集成 到 单 芯 片 中 时 ， 控 制 线 的 蜘蛛 网 也 被 集成 在 了 芯片 上 。 
控制 不 仅 在 读 取 和 分 发 指令 时 需要 ， 单 个 指令 的 执行 


A > 
也 同样 需要 。 考 虑 执行 一 个 数据 传输 的 简单 情况 ， 通 过 一 oa 
个 32 位 单 总 线 从 寄存 器 A 传 到 寄存 器 B (LDR B,A)， 如 Bb] 


3-2 所 示 。 


两 个 三 角形 是 三 态 名 一 类似 于 一 个 开关 图 3-2 一 个 非常 简单 的 计算 机 控 
图 中 的 两 个 三 角形 是 级 冲 器 一 一 类 似 于 一 个 开关 制 单元 框图 ， 显 示 了 两 个 


设备 ， 当 控制 信号 有 效 时 数据 信号 能 够 通过 缓冲 器 ， 但 当 寄存 器 ， 每 个 都 配 有 三 
控制 信号 无 效 时 ， 数 据 信号 不 能 通过 。 为 了 在 任何 时 候 。 都 态 缓冲 器 ， 一 个 32 位 总 
能 够 控制 哪个 寄存 器 来 驱动 总 线 寄存 器 ， 需 要 在 寄存 器 及 线 连 接 到 所 有 端口 


其 所 连接 的 总 线 之 间 使 用 这 种 设备 。 不 只 寄存 器 ， 对 于 所 
有 可 以 将 值 输出 到 共享 总 线 的 功能 单元 ， 都 需要 在 其 输出 和 总 线 之 间 加 入 三 态 缓冲 器 。 

铭记 这 一 点 ， 数 据 传输 所 需要 的 动作 总 结 如 下 : 

1) 关闭 驱动 总 线 的 任何 三 态 缓冲 器 (本 例 中 将 enal 到 ena4 设 为 无 效 ) 。 

2) 允许 ena2 以 打开 32 位 三 态 门 ， 将 寄存 器 A 中 的 内 容 驱 动 到 共享 总 线 上 。 

3) 允许 ena3 从 而 将 总 线 数据 反馈 给 寄存 器 B。 

4) 禁止 ena3 从 而 将 总 线 数据 锁 存 在 寄存 器 B 中 。 

5) 禁止 ena2 从 而 释放 总 线 以 进行 其 他 操作 。 

处 理 的 详细 过 程 可 能 会 因 设备 而 异 (尤其 是 在 我 们 没有 考虑 确切 的 时 序 的 情况 下 ， 因 为 启 
动 信号 通常 是 在 不 同 的 时 钟 边沿 触发 的 ) ， 但 是 这 样 的 处 理 部 件 是 需要 的 一 一 按 顺序 给 出 一 一 
更 重要 的 是 在 不 同 阶段 之 间 需 要 足够 的 时 间 : 

。 1 到 2: 等 待 “ 关 ”信号 沿 着 控制 线 传播 ， 直 到 三 态 缓冲 器 并 进行 控制 。 

。 2 到 3: 等 待 总 线 电压 稳定 〈 即 寄存 器 A 的 内 容 由 总 线 电 压 正 确 反 映 出 来 ) 。 

。 3 到 4: 给 寄存 器 足够 的 时 间 去 捕获 总 线 上 的 值 。 

。 4 到 5: 等 待 控制 信号 传递 到 寄存 器 ， 在 总 线 因 用 为 其 他 用 途 被 释放 之 前 ， 寄 存 器 停止 

“监视 总 线 ”。 

有 时 等 待 时 间 非 常 重要 。 在 现代 处 理 器 中 ， 它 以 系统 的 时 钟 周 期 计数 ， 进 程 的 每 个 阶段 至 
少 分 配 一 个 周期 。 

图 3-3 描述 了 在 动作 之 间 至 少 一 个 时 钟 周期 的 时 序 ， 显示 了 在 处 理 的 每 个 阶段 事件 的 顺 
序 。 显 然 需要 一 个 同步 的 控制 系统 来 执行 这 个 动作 序列 ， 即 使 只 是 最 简单 的 CPU 指令 序列 。 
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图 3-3 一 个 简单 控制 单元 (如 图 3-2 所 示 ) 从 寄存 器 A 传输 数据 到 寄存 器 B 时 的 周期 级 
时 序 ， 深 色 的 线 表示 在 那个 时 刻 特定 的 总 线 或 信号 是 激活 的 
不 是 所 有 的 指令 都 需要 按 步 又 经 过 相同 的 状态 。 有 些 指令 ， 如 没有 返回 结果 的 ， 就 能 够 早 
些 终止 。 这 些 指令 或 者 通过 一 个 状态 机 完成 ， 任 凭 其 执行 完 所 有 状态 (对 那些 没 用 的 状态 定义 





加 ”无论 信号 是 否 有 效 ， 都 只 有 一 个 三 态 缓冲 器 可 以 驱动 总 线 ， 而 所 有 其 他 连接 寄存 器 的 三 态 都 被 关闭 〈 或 者 
说 它们 不 会 “驱动 ”总 线 ) 。 如 果 人 允许 两 个 寄存 器 同时 驱动 总 线 ， 则 总 线 值 将 被 破坏 ， 甚 至 整个 设备 可 能 
发 生 故 障 并 短路 。 
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虚拟 的 动作 ) ， 或 者 通过 提早 终止 或 自 定 义 状态 转换 来 完成 。 在 给 出 的 示例 中 ， 该 指令 可 能 会 
更 早 完 成 ， Te 

有 些 指令 可 能 需要 专门 的 处 理 ， 进 一 步 扩 展 状态 机 (例如 ,不 符合 同一 序列 的 指令 ) 
CPU 设计 者 为 了 应 付 这 种 问题 ， 通 常会 a 
个 状态 机 。 

多 年 来 ， 越 来 越 多 怪异 的 或 完美 的 指令 相继 被 提出 。 没 有 谁 能 指出 它们 会 在 哪里 结束 一 一 
状态 机 真是 越 来 越 复杂 ! 有 些 情况 下 ，CPU 的 控制 单元 是 CPU 设计 中 最 复杂 的 部 分 ， 最 多 会 
占用 芯片 一 半 的 面积 。 而 男 一 些 情况 下 ,状态 机 变 得 非常 复杂 以 至 于 它 自己 就 是 男 一 个 CPU 
实现 一 一 导致 一 个 简单 的 处 理 器 要 应 对 一 个 更 大 、 更 复杂 的 处 理 器 的 控制 需求 。 在 IC 设计 领 
域 (和 其 他 许多 领域 一 样 ) ， 众 所 周知 复杂 性 会 导致 错误 ， 正 因为 如 此 ， 一 些 更 简单 的 替代 方 
法 正 处 于 研究 之 中 。 

到 目前 为 止 ， 我 们 只 考虑 在 一 个 处 理 器 中 处 理 不 同 指令 以 及 控制 器 如 何 从 一 个 状态 转 到 另 
一 个 状态 的 情况 。 现 在 ， 我 们 考虑 一 个 实际 任务 ， 就 是 根据 不 断 增 长 的 内 部 总 线 连接 、 更 大 的 
寄存 器 组 、 更 多 的 功能 单元 和 更 高 的 时 钟 复杂 度 与 灵活 性 ， 让 控制 信号 分 布 在 更 大 的 甚至 还 在 
增长 的 IC 面积 上 。 我 们 可 以 想象 ， 很 大 一 部 分 内 部 处 理 器 的 路 由 逻辑 ( 即 走 线 从 设备 的 一 边 
到 另 一 边 ) 将 需要 为 控制 器 预 留 出 来 。 这 种 难度 已 经 超越 了 指令 控制 的 复杂 度 。 事 实证 明 在 一 
个 IC 硅 片 上 ， 能 够 达到 整个 芯片 的 互 连 是 一 种 稀缺 资源 : 这 通常 都 留 给 快速 数据 总 线 。 把 越 
来 越 多 的 这 种 资源 用 于 专业 控制 目的 的 需求 从 另 一 方面 促进 了 替代 控制 策略 的 研究 。 

因此 产生 了 三 种 通用 的 方法 学 ， 称 为 分 布 式 控制 、 自 定时 控制 和 简化 (增加 规律 性 )。 
3.2.5 节 中 将 给 出 一 个 分 布 式 控制 的 主要 例子 ， 简 化 的 例子 可 以 在 3. 2.6 节 讨 论 RISC 处 理 器 时 
见 到 。 让 我 们 简要 分 析 一 下 每 个 控制 方法 。 

图 3-4 所 示 是 一 个 非常 简单 的 CPU 内 部 的 一 
部 分 ， 每 个 寄存 器 组 有 4 个 寄存 器 ，2 个 ALU， 
都 通过 2 组 共享 数据 总 线 连接 。 总 线 进 出 的 每 个 
点 有 一 个 三 态 缓冲 器 。 每 个 总 线 、 三 态 门 、 寄 存 
器 和 ALU 端口 都 是 多 位 宽 的 ， 也 就 是 说 ， 如 果 它 
是 一 个 16 位 器 件 ， 它 们 都 将 是 16 位 宽 。 为 清楚 全 
起 见 ， 我 们 只 绘制 单个 但 略 粗 的 线条 来 表示 图 3.4 一 个 简单 CPU 所 需 的 集中 
总 线 。 控制 线 布线 框图 

显然 ， 即便 是 这 么 简单 的 系统 ， 从 图 3-4 中 
的 控制 单元 发 出 的 单 控制 线 也 有 很 多 ， 连 接 也 显得 凌 乱 。 这 些 线 用 来 控制 每 一 个 三 态 缓冲 器 和 
ALU 的 模式 (ALU 可 以 执行 几 种 可 选 的 功能 ， 例 如 ADD、AND 、SUB 等 ) 。 图 中 有 些 线 没有 显 
示 ， 如 寄存 器 选择 逻辑 。 在 第 4 章 及 后 续 章 节 中 ， 将 讨论 不 同 的 总 线 安 排 ， 但 像 这 样 的 控制 信 
号 线 将 不 再 画 出 ， 因 为 这 些 线 使 图 变 得 过 于 复杂 。 因 此 必须 理解 的 是 ， 当 绘制 寄存 器 、ALU、 
乘法 器 、 总 线 输出 、 总 线 输 入 等 时 ， 总 是 需要 一 些 控 制 逻 辑 “ 在 幕后 ”管理 它们 。 

一 个 可 行 的 简化 办 法 是 使 用 一 根 控 制 总 线 或 几 组 控制 总 线 ， 而 不 是 像 图 3-4 所 示 的 那样 每 
个 寄存 器 需要 两 根 控制 总 线 ， 事 实 上 ， 若 要 控制 每 根 数据 总 线 在 某 个 时 刻 只 能 获取 一 个 值 ， 只 
需要 给 每 根 数据 总 线 一 根 2 位 的 选择 总 线 〈 即 对 于 系统 总 共 4 位 的 控制 总 线 ) 去 驱动 即 可 ， 这 
称 为 寄存 器 选择 (register-select) 总 线 。 这 种 方法 在 一 个 有 4 个 寄存 器 的 系统 中 可 能 还 显 不 出 
什么 优势 ， 但 在 32 个 寄存 器 的 系统 中 会 将 寄存 器 选择 控制 线 的 数量 从 64 个 减少 到 6 个 。 一 个 
小 例子 如 图 3-5 所 示 。 

在 图 3-5 中 ， 从 控制 单元 发 出 的 到 寄存 器 组 的 线 的 数量 是 4 根 ， 在 寄存 器 组 那里 译 码 并 选 
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择 合适 的 寄存 器 。 这 不 一 定 是 最 小 的 逻辑 ,但 它 将 CPU 和 控制 单元 之 间 的 连 线 数量 减 小 到 了 
原来 的 一 半 。 

总 而 言 之 ， 控 制 无 处 不 在 ， 如 内 部 总 线 的 仲裁 、 取 指 、 译 码 和 指令 执行 步 又 的 发 起 、 与 外 
界 的 交互 (如 IO 接口 ) 以 及 将 CPU 内 的 
每 个 事件 都 排 好 序 。 控 制 甚至 会 扩展 到 对 
外 部 存储 的 处 理 ， 下 一 章 在 讨论 内 存 管理 
单元 时 将 介绍 一 个 相关 的 重要 例子 。 

自 定时 控制 (self-timed control) 是 一 
个 替代 的 策略 ， 它 将 控制 分 布 到 整个 CPU ， 
这 是 基于 大 部 分 指令 在 处 理 器 中 都 是 遵循 
一 个 常用 的 “控制 路 径 ” 取 指 、 译 码 、 
执行 和 存储 。 在 执行 阶段 ， 以 下 过 程 也 相 








当 普 遍 一 一 驱动 某 些 寄存 器 的 值 到 总 线 上 ， 图 3-5 一 个 小 型 控制 单元 连接 到 寄存 器 组 的 
驱动 总 线 上 的 值 到 一 个 或 多 个 功能 单元 输入 选择 多 辑 ， 该 寄存 器 组 包含 4 个 
Ee 寄存 器 


一 段 时 间 后 再 把 结果 收集 起 来 (还 是 通过 
一 组 或 多 组 总 线 ) 并 锁 存 回 寄存 髓 。 

此 例 中 使 用 自 定时 控制 并 不 意味 着 这 是 一 个 异步 系统 ， 因 为 每 个 模块 都 是 同步 的 ， 尽管 是 
以 更 快 的 时 钟 工 作 (注意 我 们 将 在 第 9 章 介 绍 在 某 些 深奥 的 异步 系统 中 使 用 自 定时 系统 ， 但 在 
这 里 我 们 只 处 理 同 步 逻 辑 ) 。 

一 个 集中 式 控制 单元 能 够 指出 这 个 顺序 ,“ 正 在 取 指 ”， 然 后 “正在 译 码 ”， 然 后 “正在 执 
行 "， 最 后 是 “正在 存储 "。 这 需要 控制 从 负责 每 一 个 任务 的 IC 区 域 回 到 中 央 处 理 单 元 的 这 些 
连接 。 然 而 ， 自 定时 控制 策略 要 求 控制 单元 只 能 是 从 指令 读 取 开始 执行 过 程 ,“ 正 在 译 码 ” 信 
号 是 由 取 指 单元 触发 的 ， 而 不 是 从 中 央 位 置 来 的 。 类 似 地 ,“ 正 在 执行 ”信号 是 由 译 码 单元 产 
生 并 传递 给 执行 单元 的 。 按 照 这 种 方式 ， 需 要 有 从 每 个 单元 到 下 一 个 单元 的 控制 互 连 ， 而 不 是 
所 有 的 都 向 中 央 位 置 集中 。 实 际 上 ， 控 制 信号 是 跟随 数据 通路 的 ， 在 一 个 流水 线 机 器 〈 将 在 第 
5 章 介 绍 ) 上 某 些 东西 将 变 得 更 加 有 效 。 

集中 式 控 制 和 自 定 时 控制 这 两 个 替代 
方法 的 流程 图 如 图 3-6 所 示 。 此 图 中 ， 数 据 
总 线 没有 画 出 ， 它 可 能 来 自 外 部 存储 器 并 依 
次 进行 取 指 、 译 码 、 执 行 和 存储 ( FDES) 
过 程 。 左 图 显示 了 一 个 包含 4 根 控制 总 线 的 
控制 单元 ， 每 一 根 控制 总 线 连接 到 4 个 独立 
单元 的 启动 输入 。 在 内 部 状态 机 指定 的 相关 
时 间 内 ， 控 制 单元 将 启动 FDES 单元 的 
操作 。 

根据 正在 处 理 的 指令 ， 控 制 单元 状态 机 
可 能 需要 对 FDES 单元 分 别 进 行 不 同 的 控制 
(可 能 是 较 长 的 执行 阶段 或 跳 过 存储 ) 。 这 个 知识 必须 被 编码 到 控制 单元 中 ,， 那 就 是 必须 记 住 
每 一 个 与 其 相连 的 单元 的 操作 组 合 。 状 态 机 首先 必须 包含 详细 的 时 序 信息 和 每 个 单元 的 要 求 信 
息 ， 但 必须 跟踪 可 能 同时 通过 这 个 单元 执行 的 多 个 指令 。 

右 图 是 一 个 自 定时 系统 : 控制 单元 仍然 会 控制 处 理 过 程 ， 但 在 这 种 情况 下 ， 每 个 后 续 单 元 
都 由 前 一 个 单元 在 需要 的 时 候 进行 启动 。 因 为 这 些 单元 本 身 要 启动 下 一 步 ， 所 以 假设 数据 总 线 





图 3-6 集中 式 控制 ( 左 ) 和 自 定时 控制 ( 右 ) 
两 种 蔡 代 策略 的 控制 流程 图 
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(没有 显示 ) 能 够 在 正确 的 时 间 得 到 正确 的 信息 。 

根据 被 处 理 的 指令 ,这 些 单元 可 能 会 决定 跳 过 它们 自己 ,把 请 求 直 接 传 给 下 一 个 单元 ， 因 
此 每 个 单元 必须 把 这 个 职责 和 时 序 编码 到 自己 的 功能 中 。 

也 许 更 麻烦 的 是 需要 把 不 同 的 信息 传送 给 不 同 的 单元 ， 例 如 ， 执 行 单元 需要 知道 要 运行 什 
么 功能 一 一 是 与 、 或 、 减 法 还 是 其 他 ， 它 不 需要 知道 执行 的 结果 应 存 到 哪里 一 一 而 这 个 信息 对 
存储 单元 来 说 是 需要 的 ， 相 反 它 不 需要 知道 执行 的 是 什么 运算 。 在 自 定时 情况 下 ,或 者 将 所 需 
信息 的 全 部 字段 送 到 一 个 个 单元 ， 每 个 单元 只 读 取 与 自己 相关 的 ,或 者 把 这 些 信息 集中 存储 。 
实现 策略 的 选择 取决 于 对 复杂 度 和 性 能 的 要 求 。 


3. 2.5 微 指令 


随 着 CPU 变 得 越 来 越 复杂 ， 它 们 最 终 成 为 一 个 基本 功能 需求 的 组 合体 ， 带 有 越 来 越 多 的 
设计 师 认 为 重要 的 用 户 定制 的 专用 指令 。 应 用 程序 的 快速 变化 和 计算 的 使 用 ， 再 加 上 设计 新 
CPU 的 周期 十 分 缓慢 ， 意 味 着 当 基 于 这 些 CPU 的 计算 机 被 广泛 使 用 时 ， 其 中 一 些 指令 已 经 过 
时 了 (忽略 那些 在 计算 机 历史 中 没有 任何 技术 会 过 期 的 说 法 ) 。 一 个 例子 就 是 20 世纪 80 年 代 
的 Intel 8086 、80386 、80486 处 理 器 上 的 BCD 码 处 理 指 令 ， 就 是 为 了 反 向 兼容 那些 已 经 存在 几 
十 年 的 旧版 商业 软件 。 商 业 的 需求 驱动 了 CPU 不 断 提 高 其 处 理 速度 ， 这 种 改进 一 方面 是 通过 
提高 时 钟 频 率 来 实现 ， 另 一 方面 是 通过 用 一 条 指令 执行 更 多 的 功能 实现 。 

复杂 指令 的 提出 更 多 是 因为 外 存 和 内 存 之 间 的 速度 差异 。 快 速 的 内 部 存储 器 (片上 或 CPU 
核心 旁边 ) 通常 非常 昂贵 ， 但 运行 速度 可 能 比 廉价 的 外 部 存储 器 ( 片 外 ， 远离 CPU 内 核 ) 快 
1000 倍 。 一 个 大 的 瓶颈 就 是 把 指令 从 外 存 取 到 处 理 器 中 。 程 序 通常 很 大 ， 因 此 驻 留 在 外 部 存 
储 器 中 速度 〈( 慢 ) ， 但 程序 中 的 指令 在 CPU 内 部 执行 速度 〈 快 ) 。 因 此 有 一 个 很 好 的 想法 就 是 
创造 单个 复杂 指令 以 替代 原来 的 100 条 小 指令 序列 。 这 意味 着 只 需要 从 慢 速 存储 器 等 待 一 条 指 
令 而 不 是 100 条 指令 。 

实际 上 ， 我们 可 能 会 想到 用 助 记 符 ， 外 部 程序 是 以 助 记 符 (指令) 写 的 ， 它 被 缓慢 地 送 
入 CPU， 每 一 个 程序 都 会 带 来 更 长 序列 的 内 部 操作 。 每 个 助 记 符 可 能 会 产生 一 个 内 部 操作 序 
列 ， 这 些 内 部 序列 才 是 用 微 指令 (microcode) 写 的 真正 的 程序 。 微 指令 是 这 些 处 理 器 的 基本 指 
令 集 ， 但 往往 与 外 部 指令 不 特别 相似 。 所 有 的 外 部 指令 在 进入 CPU 时 ， 可 能 都 要 被 翻译 为 微 
指令 程序 或 微 程 序 。 在 内 部 ，CPU 将 支持 微 程 序 所 依赖 的 一 组 操作 ， 这 就 是 微 指 令 指 全 集 。 

微 程 序 设 计 作 为 一 门 技术 ， 实 际 上 是 20 世纪 50 年 代 初 由 Maurice Wilkes 在 剑桥 大 学 发 明 
的 ，IBM System/360 家 族 的 计算 机 可 能 是 第 一 款 使 用 该 技术 实现 的 商业 机 器 。 

图 3-7 中 阐述 了 一 些微 指令 的 概念 ， 其 中 外 部 程序 存储 在 慢 速 存储 器 中 ， 并 通过 CPU 执 
行 。 当 前 程序 计数 器 (PC) 指向 指令 DEC A， 可 能 是 递减 寄存 器 A 中 的 值 。 这 条 指令 被 CPU 
取出 ， 译 码 为 一 个 微 指 令 序 列 ， 包 括 将 A 的 值 加 载 到 寄存 器 X 中 ， 然 后 把 1 加 载 到 寄存 器 Y 
中 ， 再 用 X 减 去 Y， 最 后 把 结果 保存 回 A 中 。 

由 DEC 指令 产生 的 一 个 小 型 的 4 条 指令 微 程序 是 存储 在 CPU 内 部 的 ， 位 于 快速 的 片上 只 
读 存 储 器 (ROM) 中 ,并 需要 一 个 内 部 的 微 程序 计数 器 。 它 们 在 外 部 程序 中 是 不 可 见 的 ， 这 
些 外 部 程序 甚至 不 知道 寄存 器 X、Y 和 2Z 存在 于 CPU 中 。 

进一步 扩展 该 方法 ,会 得 到 一 个 使 用 纳 指令 (nanocode) 的 处 理 器 : 外 部 程序 转换 成 微 指 
令 的 微 程序 ， 每 个 微 程 序 再 进一步 翻译 成 由 纳 指令 构成 的 纳 程序 。 尽 管 这 项 技术 实际 上 只 是 简 
单 的 扩展 ,但 会 比 使 用 微 指 令 方式 进一步 减少 返回 值 。 这 个 好 处 主要 是 依赖 于 外 部 存储 器 已 成 
为 瓶颈 这 个 事实 。 在 外 部 随机 存储 器 (RAM) 又 慢 又 贵 而 内 部 ROM 却 非常 快 的 时 代 ， 这 样 做 
无 疑 是 正确 的 。 但 是 随 着 RAM 技术 的 改进 ， 包 括 静 态 RAM (SRAM) 、 动 态 RAM (DRAM) 以 


CPU 基础 33 








及 随后 的 同步 动态 RAM (SDRAM) 都 前 弱 了 ROM 的 速度 优势 ， 在 20 世纪 90 年 代 这 些 技术 之 
间 的 差别 已 经 不 大 了 。 





图 3-7 指令 执行 框图 : 指令 从 外 部 慢 速 存储 器 取出 ， 在 CPU 中 译 码 ， 
以 非常 简单 的 微 指 令 序列 执行 


由 于 速度 优势 已 不 明显 ， 因 此 微 指令 的 普及 性 开始 消退 。 一 个 例外 是 这 种 指令 翻译 的 好 处 
还 是 有 用 的 ， 微 指令 方法 所 固有 的 这 个 特点 允许 一 种 类 型 的 CPU 可 以 执行 男 一 种 机 器 的 指 
令 集 。 

在 20 世纪 90 年 代 末 期 ， 处 理 器 继续 改进 ， 内 部 为 RISC 的 机 器 却 可 以 执行 CISC 指令 集 
( 见 下 一 节 ) 。 没 有 哪个 处 理 器 能 像 x86 系列 处 理 器 这 样 更 清楚 地 表现 出 这 一 优势 。 为 了 解决 
1971 年 以 来 出 现 的 问题 ， 这 些 CPU 不 仅 要 保证 代码 的 向 上 兼容 性 ， 使 得 能 够 执行 古老 的 、 并 
不 优化 的 CISC 指令 集 ， 还 要 比 竞争 对 手 的 处 理 器 运行 更 快 。 包 含 到 这 些 处 理 器 中 的 老式 CISC 
指令 将 被 翻译 成 更 快 的 RISC 风格 的 优化 汇编 序列 ， 因 此 RISC 指令 取代 了 现代 的 微 指令 。 

微 指令 翻译 的 另 一 个 好 处 是 一 个 处 理 器 可 以 模仿 其 他 设备 。 这 样 的 处 理 器 可 执行 一 个 
ARM 程序 ， 就 像 一 个 本 地 的 ARM 处 理 器 一 样 ， 它 还 可 以 转 而 执行 德州 仪器 〈TI) 公司 的 DSP 
代码 ， 就 像 是 一 个 TI 的 DSP 一 一 是 能 够 以 各 种 CPU 的 身份 运行 各 种 程序 的 终极 方法 。 

尽管 有 这 么 有 利 的 市 场 ， 但 微 指令 背后 的 驱动 因素 还 是 消失 了 ， 它 在 20 世纪 80 年 代 已 经 
不 再 流行 。 市 场 更 倾向 于 能 做 得 更 多 、 更 快 的 处 理 器 : 摩尔 定律 如 火 如 茶 。 


3.2.6 RISC 和 CISC 的 对 比 


RISC (精简 指令 集 计算 机 ) 和 CISC (复杂 指令 集 计算 机 ) 背后 的 思想 已 经 在 2. 2 节 简 单 
提 到 过 。CISC 体系 结构 包括 许多 复杂 且 功 能 强大 的 指令 ， 而 RISC 体系 结构 则 集中 在 只 包含 常 
用 指令 却 处 理 快速 的 小 型 子 集 上 。 即 使 用 多 条 RISC 指令 合成 复杂 操作 ， 它 们 的 执行 速度 和 直 
接 用 一 条 CISC 指令 一 样 快 ， 甚 至 更 快 。 

图 3-8 解释 了 这 一 概念 ， 图 中 有 两 个 程序 : 一 个 运行 在 RISC 机 器 上 ， 拥 有 快速 的 每 周期 
一 条 指令 的 能 力 ， 在 12 个 时 钟 周期 内 可 以 完成 一 个 12 条 指令 (A ~L) 的 程序 。 它 下 面 是 一 
个 CISC 计算 机 ， 它 的 时 钟 周期 更 长 些 (因为 硬件 会 更 复杂 ， 因 此 变 慢 )， 以 相近 的 时 钟 周期 数 
完成 同样 的 处 理 ， 但 在 这 时 只 用 5 条 复杂 指令 取代 了 RISC 机 器 的 12 条 指令 。 由 于 时 钟 周期 更 
长 ， 它 完成 任务 要 比 RISC 机 器 更 慢 。 这 是 通常 的 情况 ， 当 然 也 存在 其 他 条 件 ，CISC 处 理 器 能 
够 计算 得 更 快 。 





然而 这 样 一 个 说 法 并 没有 描述 清楚 这 两 种 方法 的 前 后 关系 ， 因 此 我 们 需要 给 出 一 点 解释 。 
从 历史 的 角度 来 看 ， 早 期 计算 机 的 使 用 者 都 是 其 设计 者 。 设 计 者 知道 在 他 们 的 程序 中 需要 哪些 
基本 操作 ， 并 把 这 些 直 接 匹配 到 硬件 中 。 随 着 硬件 的 可 用 性 提高 ， 添 加 新 指令 到 计算 机 中 成 为 





起 a 


图 3-8 本 图 阐述 CISC 指令 和 RISC 指令 的 不 同 大 小 、 速 度 和 功能 。RISC 指令 (上面 的 ) 都 很 短小 ， 每 
条 占用 一 个 CPU 周期 ,图 中 用 竖 线 标 出 。 相 反 ，CISC 指令 (下面 的 ) 需要 多 个 周期 执行 ， 通常 
每 条 指令 比 RISC 完成 更 多 的 功能 


随 着 时 间 的 推移 ， 计 算 机 程序 员 专 注 于 软件 开发 ， 而 计算 机 架构 师 则 只 专注 于 硬件 方面 。 
程序 员 会 找 架构 师 要求 自 定义 指令 以 使 他 们 的 程序 运行 得 更 快 。 架 构 师 通常 都 遵循 建议 ， 但 有 
时 他 们 也 自作 主张 地 添加 他 们 认为 有 用 的 指令 ， 却 让 程序 员 摸 不 着 头脑 。 

到 20 世纪 80 年 代 中 期 ， 各 种 设计 团体 开始 质疑 当时 的 设计 理念 ， 尤 其 是 美国 的 伯克利 大 
学 和 斯 坦 福 大 学 。 他 们 提出 这 个 观点 ， 可 能 基于 在 IBM 悄悄 进行 的 一 些 开创 性 工作 ， 他 们 研究 
了 较 简 单 的 机 器 ， 简 单 和 常规 的 设计 有 助 于 加 快 这 些 机 器 的 时 钟 速度 。 这 些 机 器 证 明了 简单 的 
指令 可 以 被 处 理 得 更 快 。 尽 管 有 时 多 条 RISC 指令 才能 完成 一 条 CISC 指令 的 功能 ， 但 一 个 
RISC 程序 总 体 上 还 是 明显 运行 得 更 快 。 

“精简 指令 集 计算 机 ”这 个 名 字 赞 扬 了 原始 设计 的 简单 性 ， 虽 然 没 有 实际 的 理由 要 减少 指 
令 集 的 大 小 ， 而 仅仅 是 要 降低 指令 的 复杂 性 。RISC 技术 得 以 推广 ， 随 之 产生 了 RISC I 、RISC 
开 以 及 MIPS 处 理 器 。 这 些 又 演变 为 能 够 提供 强大 工作 站 性 能 的 商业 机 器 ， 它 们 不 再 向 上 兼容 
x86 代码 ， 尤 其 是 SPARC 和 MIPS CPU 。 

同时 ， 在 英国 剑桥 大 学 的 橡 子 计算 机 有 限 公司 (Acorn Computers Ltd， 已 于 1999 年 注销 )， 
一 个 很 小 的 设计 小 组 基于 早期 伯克利 的 研究 设计 了 他 们 自己 的 处 理 器 ， 该 公司 非常 成 功 地 制造 
了 基于 6502 的 BBC 微型 计算 机 (为 英国 做 出 了 贡献 ， 使 其 具有 世界 上 最 高 的 计算 机 拥有 率 ) 。 
这 人 台 Acorn RISC Machine ARM1 ， 是 基于 运行 BASIC 的 2MHz BBC 微型 计算 机 设计 的 。A- 
corn 为 这 款 处 理 器 编写 了 他 们 自己 的 芯片 设计 工具 ， 在 该 处 理 器 之 后 很 快 产生 了 ARM2 ， 成 为 
世界 上 第 一 款 商 业 RISC 处 理 器 芯片 ， 这 增加 了 新 兴 的 Acorn 公司 的 计算 机 种 类 。 到 2002 年 ， 
ARM (现在 重新 命名 为 Advanced RISC Machine) 成 为 世界 上 非常 畅销 的 32 位 处 理 器 ， 宣 称 占 
有 76. 8% 的 市 场 份额 。 到 2005 年 中 期 , 已 售 出 超过 25 亿美 元 的 ARM 处 理 器 产品 ， 到 2009 年 
年 初 ， 其 销售 数量 已 经 增长 到 超过 地 球 上 人 手 一 个 的 程度 了 。ARM 处 理 器 的 普及 程度 还 在 继 
续 增加 ， 到 2018 年 ， 达 到 了 几乎 市 场 上 所 有 智能 手机 都 采用 ARM 处 理 器 的 程度 。 框 3. 1 简要 
介绍 了 ARM 处 理 器 的 开发 背景 。 

ARM 是 如 何 设计 的 

在 20 世纪 80 年 代 中 期 ， 具 有 开创 性 的 英国 计算 机 公司 Acorn 和 英国 广播 公司 (BBC) 签订 了 合同 ， 
要 设计 并 推销 BBC 的 微型 计算 机 ， 当 时 该 公司 正在 寻找 一 种 方法 来 超越 其 获得 巨大 成 功 的 8 位 BBC 微型 
计算 机 。 精 简 、 高 效 的 Rockwell 6502 处 理 器 推动 了 这 一 设计 。BBC 的 举措 大 大 促进 了 计算 机 在 英国 的 使 
用 ， 据 报道 ， 英 国 的 人 均 计 算 机 拥有 数量 远 远 超过 了 其 他 国家 。 例 如 ，Clive Sinclair 蟹 士 的 ZX 系列 计算 
机 已 经 卖 了 400 万 台 ， 而 那 时 IBM PC 的 销售 只 达到 100 万 台 。Acorn 公司 也 总 共 售 出 了 超过 100 万 台 的 
BBC 计算 机 。 

在 “计算 机 革命 ”的 早期 ，Acorn 公司 很 快意 识 到 ， 来 自如 Intel 和 Motorola 等 公司 的 16 位 处 理 器 已 
经 不 够 强大 ， 无 法 满足 他 们 预计 的 未 来 需求 一 一 在 20 世纪 80 年 代 晚 期 发 布 世界 上 第 一 个 多 任务 图 形 桌 
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面 操作 系统 。 

由 于 没有 足够 好 的 处 理 器 ，Acorn 决定 创造 自己 的 处 理 器 。Acorn 在 两 年 内 设计 了 ARMI1 以 及 它 的 支 
持 IC (如 MEMC 和 VIDC)， 尽管 它 之 前 从 未 进行 过 任何 芯片 开发 。 

Acorn 希望 设计 一 个 常规 体系 结构 的 机 器 一 一 类 似 于 6502， 但 功能 要 更 强大 。Acorn 采用 RISC 方法 ， 
还 通过 分 析 操 作 系统 代码 重新 审视 了 软件 需求 ， 确 定 了 最 常用 的 指令 ， 并 为 ARM 处 理 器 做 了 指令 优化 ,还 
用 同样 的 方法 得 到 一 个 指令 集 ( 见 3.3 节 ) 及 其 编码 ， 后 来 由 于 迫切 需要 又 增加 了 乘法 指令 和 乘 累 加 指令 。 

全 球 知名 的 ARM 处 理 器 恰好 符合 英国 政府 基金 资助 的 BBC 项 目的 初衷 ， 实 现 了 多 种 优秀 的 功能 : 
ARM 软件 中 断 、 监 控 模 式 、 快 速 中 断 、 无 微 指令 、 静 态 流水 线 以 及 load-store 体系 结构 ， 所 有 这 些 都 从 
Acorn 所 采用 的 软 硬 件 体系 结构 中 派生 出 来 。 

当 Intel 处 于 台式 个 人 计算 机 的 热潮 时 ，ARM 进入 了 更 大 的 众人 式 处 理 器 的 热潮 。 现 在 
CPU 几乎 存在 于 每 一 个 电子 产品 中 ， 而 其 中 大 部 分 都 是 基于 ARM 的 。 


3.2.7 处理 器 实例 一 一 ARM 


多 年 来 ， 自 从 IBM 研究 小 组 发 表 了 他 们 的 初步 结果 ，RISC 方法 已 经 影响 了 处 理 器 设计 的 
几乎 所 有 领域 ， 尤 其 是 ARM RISC 处 理 器 家 族 ， 现 在 主宰 着 柑 入 式 系统 的 世界 。 因 此 ， 本 书 中 
为 了 确保 示例 与 嵌入 式 计 算 相 关 ， 几 乎 所 有 的 汇编 语言 代码 例子 都 是 以 ARM 的 汇编 格式 给 出 。 
读者 无 须 成 为 ARM 汇编 专家 ,但 如 果 熟 悉 ARM 指令 格式 将 会 非常 有 帮助 ， 例 如 : 


RDD RO, R1, R2 


是 把 寄存 器 RI 和 R2 的 内 容 相 加 ， 结 果 保 存在 寄存 器 RO 中 。 因 此 它 的 格式 是 : 


INSTRUCTION DEST_REG， SOURCE REG]1, SOURCE REG2 


今天 ， 虽然 很 容易 找到 “ 纯 ”RISC 处 理 器 的 例子 ， 如 ARM 和 MIPS， 但 甚至 铁杆 的 CISC 
设备 (如 Motorola 68000 或 Freescale Coldfire 和 一 些 Intel x86 系列 ) 现在 也 是 由 CISC 到 RISC 硬 
件 翻译 和 RISC 内 核 来 实现 的 。“ 纯 ”CISC 处 理 器 现在 看 来 并 不 受 追 捧 ， 基 于 这 个 原因 ， 当 提 
到 CISC 处 理 器 时 我 们 定义 了 一 个 伪 ARM 汇编 格式 ， 换 句 话 说， 我 们 使 用 ARM 样式 的 指令 
(即使 ARM 是 RISC CPU) ， 而 不 是 使 用 任何 专门 的 CISC 设备 的 格式 : 


ADD 有 A，B，C 


这 一 指令 把 寄存 器 B 和 C 的 值 相 加 ， 并 将 结果 放 到 寄存 器 A 中 。 通 常 这 里 的 例子 都 能 被 识别 
出 是 RISC 的 还 是 CISC 的 ， 它 们 是 有 区 别 的 ， 因 为 RISC 例子 使 用 ARM 型 的 寄存 器 RO ~ R15， 
而 CISC 例子 使 用 字母 寄存 器 A、B、C 等 。 某 些 特殊 用 途 的 寄存 器 在 后 面 的 章节 中 也 会 提 到 ， 
SP 是 堆栈 指针 ，LR 是 连接 寄存 器 。” 

本 书 中 关于 伪 ARM 指令 使 用 的 一 个 例外 是 在 讨论 有 关 AD (Analog Devices) 公司 的 AD- 
SP21xx 处 理 器 和 单独 的 德州 仪器 (TI) 的 TMS320 例子 和 一 些 专门 的 机 器 时 (例如 非常 长 的 指 
令 词 和 Tomasulo 架构 ) 时 出 现 的 ,这些 示 例 都 用 于 强调 计算 机 系统 或 体系 结构 的 特定 方面 ， 
并 将 在 上 下 文中 进行 简要 介绍 。 

虽然 示例 和 代码 片段 主要 采用 ARM 体系 结构 并 包含 ARM 汇编 语言 ， 但 重要 的 是 要 认识 到 
其 他 仍 在 使 用 的 大 量 不 同 的 CPU 体系 结构 。 其 中 许多 与 ARM 大 不 相同 ,尤其 是 它们 的 指令 集 
中 的 指令 类 型 、 寻 址 模式 ， 以 及 汇编 语言 的 语法 。 需 要 注意 的 一 点 是 ， 某 些 处 理 器 的 汇编 语言 
指令 (包括 仍然 在 几 本 教科 书 中 提 及 的 68000) 指定 目的 寄存 器 在 指令 最 后 (例如 ， 它 会 写 人 
ADD A,B,C， 意 味 着 A + B=C， 而 在 ARM 汇编 语言 格式 中 ， 相 同 含义 的 指令 是 B+C =A)。 然 
而 ， 本 书 中 目的 寄存 器 都 是 以 ARM 风格 指定 的 ， 且 任何 注释 都 跟 在 分 号 ( ;) 后 面 : 


加 SP 和 LR 实际 上 分 别 与 寄存 器 R13 和 R14 相同 ， 而 R15 是 程序 计数 器 ， 通 常 称 为 PC。 
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SUB R3, R2, R1 ; R3 王 R2 一 人 1 


有 时 目的 寄存 器 和 第 一 个 源 寄 存 器 是 同一 个 : 


2DD ©, D }C=EC+D 


或 者 可 能 只 有 一 个 源 寄存 器 : 


NOT E, F ;E= not FO 


或 者 可 能 没有 源 寄存 器 : 

B 一 4 ;向 后 跳 4 个 内 存 位 置 

这 种 类 型 的 指令 在 ARM 中 不 常见 ， 但 在 一 些 CPU 中 很 常见 。 通 常 指令 本 身 是 能 够 表明 其 
含义 的 〈 如 apD、aND、SUB 等 ) 。3.3 节 将 介绍 更 多 例子 ， 并 详细 介绍 ARM 指令 格式 ,包括 
所 有 指令 的 列表 。 

在 ARM 中 ， 还 要 注意 目的 寄存 器 在 所 有 的 指令 中 都 是 第 一 个 指定 的 ， 只 是 在 内 存 中 写 指 
令 是 不 同 的 : 


STR. Ri (R33 


将 Rl 的 值 存 到 以 R3 中 内 容 为 内 存 地 址 的 位 置 。 


3. 2.8 关于 ARM 的 更 多 内 容 


在 继续 之 前 ， 可 以 注意 到 ARM 架构 虽然 稳定 且 被 广泛 采用 ， 但 仍 在 不 断 改进 和 增强 。 因 此 ， 
它 是 一 种 动态 的 、 现 代 的、 不 断 发 展 的 设计 ， 而 不 是 一 个 静态 的 、 固 定 的 例子 。 拥 有 它 的 公司 
(也 称 为 ARM) 正在 不 断 开发 基于 ARM 的 新 的 、 特 别 是 对 于 重要 的 应 用 市 场 的 CPU 设计 产品 。 

除了 用 户 数 是 数 以 千 计 而 不 是 数 十 亿 的 早期 设计 ， 基 于 ARM 的 处 理 器 和 片上 系统 设备 
(将 在 第 7 章 中 讨论 ) 由 许多 IC 设计 公司 设计 和 制造 。 这 些 公 司 主要 承诺 在 其 设计 中 使 用 
ARM Ltd CPU 核心 ， 然 后 围绕 这 些 内 核 聚 焦 自己 的 独特 功能 。 这 使 得 它们 的 设计 能 够 利用 非常 
实质 的 ARM 生态 系统 的 开发 工具 、 现 有 的 代码 库 、 操 作 系统 支持 等 ， 同 时 通过 片上 外 设 、 加 
速 器 和 类 似 的 功能 来 区 分 它们 的 产品 。 一 些 基 于 ARM 的 设计 让 IC 设计 公司 参与 调整 ARM 内 
核 本 身 。 一 个 值得 注意 的 例子 是 DEC/Intel Strong ARM， 其 中 DEC (数字 设备 公司 ) 工程 师 与 
ARM Ltd 设计 团队 合作 ， 为 ARM 内 核 引 入 了 几 项 非常 重要 的 性 能 改进 ， 包 括 扩展 管道 、 哈 佛 
结构 数据 和 指令 缓存 、 快 速 乘法 器 等 。DEC 设计 随后 被 Intel 购买 ， 并 构成 了 Intel XScale 系列 
的 基础 。 但 是 ， 绝 大 多 数 基 于 ARM 的 IC， 无 论 它们 来 自 哪 个 制造 商 ， 都 将 包括 标准 的 ARM 
内 核 。 

在 本 书 中 ,讨论 将 仅 限于 常见 的 ARM 内 核 〈 旧 的 版 本 ， 即 ARM7 和 ARM9)， 并 使 用 这 些 
设备 几乎 都 能 理解 的 标准 ARM 汇编 程序 示例 。 然 而 ， 读 者 应 该 理解 ， 在 过 去 几 十 年 中 ,许多 
其 他 处 理 器 已 经 创建 出 来 了 。 在 教科 书 中 就 可 以 找到 很 多 当前 可 用 的 和 曾经 使 用 过 的 处 理 器 。 


3.3 指令 处 理 
正如 3.2 节 所 述 ， 计 算 机 都 是 通过 称 为 程序 的 指令 序列 执行 的 。 通 常 称 这 些 程序 为 软件 。 


使 用 高 级 语言 (HLL) 可 以 编写 出 各 种 软件 ， 每 条 高 级 语言 命令 可 能 由 数 十 条 CPU 指令 序列 
组 成 。 低 级 语言 的 一 条 命令 通常 都 只 调用 很 少 或 者 只 有 一 个 CPU 操作 。 第 8 章 中 将 更 全 面 地 讨 





加 虽然 许多 ARM 汇编 器 能 轻松 处 理 NOT R0 ,R0 指令 ， 但 我 们 应 该 注意 到 实际 上 ARM 指令 集中 没有 NOT 指令 。 
在 实际 操作 中 ， 它 使 用 等 效 的 移动 和 否定 命令 或 MVN 命令 。 因 此 汇编 器 会 在 汇编 期 间 将 NOT 指令 转换 为 MVN 
R0,R0。 程 序 员 可 能 甚至 都 没有 注意 到 这 一 点 ， 因 为 只 要 没有 报 出 错误 或 警告 ， 代 码 就 可 以 正常 运行 。 


CPU 基础 $7 








论 这 些 内 容 ， 但 是 现在 ， 我 们 将 编程 定义 为 基本 上 确保 为 CPU 提供 一 系列 指令 ， 以 使 其 能 够 
进行 所 需 的 操作 。 

如 果 我 们 将 一 个 CPU 操作 定义 为 由 CPU 执行 的 数据 移动 或 者 逻辑 处 理 ， 那 么 一 条 指令 是 
从 程序 到 CPU 的 一 个 命令 。 一 条 高 级 语言 命令 是 由 一 条 到 多 条 指令 组 成 的 ， 一 个 存储 在 计算 
机 上 的 程序 是 这 样 的 指令 序列 集合 。 

在 一 些 计 算 机 上 ， 一 个 单一 的 指令 可 用 于 调用 多 个 CPU 操作 。 这 可 能 是 由 性 能 方面 的 原 
因 决定 的 ， 尤 其 体现 在 访问 速度 上 ， 从 外 部 存储 器 上 读 取 程序 的 速度 远 比 CPU 执行 这 些 操作 
要 慢 很 多 。 事 实 上 ， 正 是 这 种 思想 促使 了 微 指令 的 出 现 (已 经 在 3.2.5 节 中 探讨 过 ) 。 

机 器 代码 通常 指 的 是 与 CPU 内 已 知 动作 相对 应 的 二 进 制 数字 标识 符 。 这 可 能 意味 着 ， 例 
如 ， 当 你 检查 程序 内 存 时 ， 十 六 进 制 字 节 数 0x4E 及 其 后 的 0xA8 可 能 代表 了 两 条 8 位 处 理 器 指 
令 ， 也 可 能 代表 一 条 16 位 处 理 器 指令 0x4EA8。 对 于 现代 处 理 器 ， 程序 员 几 乎 不 需要 应 付 处 理 
器 所 能 理解 的 底层 二 进 制 数字 标识 符 ， 而 是 通过 一 套 称 为 汇编 语言 或 者 汇编 码 的 缩写 助 记 符 来 
进行 处 理 ， 正 如 之 前 提 及 的 一 样 。 

指令 集 是 一 系列 可 能 的 汇编 语言 助 记 符 ， 是 某 具 体 CPU 所 支持 的 所 有 指令 的 列表 。 





3.3.1 指令 

指令 集 描述 了 CPU 所 能 执行 的 操作 集合 ， 每 个 操作 都 由 指令 集中 的 一 条 指令 来 编码 。 某 
些 指令 需要 一 个 或 多 个 操作 数 (例如 ， 在 指令 ADD A,B,C 里 ，A、B 和 C 称 为 源 操作 数 和 目标 
操作 数 ， 这 些 操 作 数 可 能 是 立即 数 、 寄 存 器 、 内 存 位 置 或 者 其 他 可 用 的 寻 址 方式 ， 详 见 3. 3. 4 
节 ) 。 对 于 特定 指令 通常 有 一 些 限 制 ， 比 如 可 以 使 用 哪些 寄存 器 ， 可 以 处 理 的 最 大 值 或 操作 数 
可 以 包含 的 数字 范围 。CPU 无 法 识别 的 值 将 导致 汇编 器 〈 或 编译 器 ) 错误 。 

指令 集 包 含 所 有 的 指令 ， 从 而 能 够 完全 描述 处 理 器 硬件 的 处 理 能 力 。 指 令 集 可 按照 命令 所 
涉及 的 处 理 器 单元 的 不 同 而 进行 分 组 ， 例 如 下 面 为 ADSP2181 处 理 器 所 定义 的 指令 集 : 





指令 分 组 组 内 操作 举例 
ALU 加 、 减 、 届 辑 与 、 则 辑 或 等 
MAC 乘法 、 乘 累加 等 
SHIFT 算术 /逻辑 的 左 移 / 右 移 、 指 数 运算 等 
MOVE 寄存 器 /寄存 器 、 内 存 /寄存 器 、 寄 存 器 /内 存 、 输 入 /输出 等 
PROGRAM FLOW 分 支 / 跳 转 、 调 用 、 返 回 、 循 环 等 
MISC 空闲 模式 、 无 操作 指令 、 堆 栈 控制 、 配 置 等 


许多 处 理 器 还 会 添加 一 个 FPU 组 或 SSE 组 到 指令 集 定 义 中 ,但 是 ADSP2181 是 只 支持 定点 
而 没有 多 媒体 扩展 的 处 理 器 。 

ARM 处 理 器 的 指令 集 ， 确切 地 说 是 ARM7， 以 表格 形式 在 图 3-9 中 列 出 以 供 参考 (请 注 
意 ， 该 表 列 出 了 ARM 格式 的 指令 ， 但 不 包括 很 多 ARM 处 理 器 支持 的 16 位 Thumb 模式 ) 。 该 指 
令 集 表 中 使 用 的 符号 包括 : 

。 S: 第 20 位 ,标志 着 指令 应 该 根据 完成 情况 更 新 条 件 标志 位 (参见 框 3.2)。 

: 第 6、22 位 ， 标 志 着 传输 指令 应 该 恢复 状态 寄存 器 。 

: 在 乘法 中 表示 有 符号 /无 符号 ， 在 数据 传输 中 表示 向 上 /向 下 修改 索引 。 
: 立即 寻 址 的 指示 位 。 

: 结果 累加 /不 累加 。 

: 无 符号 字 节 / 字 。 

: 写 回 。 
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L: 读 / 存 。 

P: 向 前 和 向 后 、 递 增 和 递减 运算 符 。 

R: 指明 16 个 寄存 器 中 的 一 个 

CR: 指示 一 个 协 处 理 器 寄存 器 (可 识别 的 8 个 协 处 理 器 中 的 一 


313029 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 1 6 5 4 3 2 1 0 
条 件 标志 倍 0| 1| 1| xj|x|x[xj|xjx[x[x[x|xlx[x[xjx[x[x[x[x[x[xl[Llx[x[xlx| 未 定义 | 
本 0 各 
从 标志 他 1|0|1L| 日 的 数 俩 移 旭 | 针 | 
TEST TI | 于 | 
条 件 标志 位 0j0|0|0|1|UlAJS| RdHi | RdLow | Rn |1lololll Rm [长 乘 | 
条 件 标志 位 0j 1 | 1|P|UlB|wlL| Rn |R4 | 偏 移 地 址 |LDRSTR | 
| 条件 标 志 位 0|0|0|P|UjIwlL Rn | Rd | offset [1[s[H|j1| offset | 半 字 传输 | 
EO 
条 件 标志 位 1|0| 0|PjUjSjwIL| Rn | 
Tm 一 二 
可 人生 下 合 0|o|o|1|6js|5[o| Rr | Rr lolofolol fololr| wa | 间 天 
条 件 标 志 位 1|1|0lPIUINIWIL| Rn |cRd | CPno | ofset |IDc | 
条 件 标志 位 1|1|110| CP 操作 码 | CRn | CRd | CPno | CP |of Crm |cpP | 
条 件 标志 他 1]1|1|olcP 操 作 码 L| CRn | Rd | Cpno. | CP |2| Crm |Mcr | 

图 3-9 ARM 指令 集 列表 。 列 的 上 面 标 出 了 指令 字 的 位 。 表 中 列 出 了 某 版 本 ARM 

指令 集中 所 有 的 14 类 指令 


这 些 修饰 符 多 数 是 ARM 处 理 器 专用 的 ， 这 里 不 再 进一步 讨论 ， 但 我 们 会 详细 关注 位 “S” 
以 及 寻 址 能 力 ( 见 3.3.4 节 ) 。 有 兴趣 的 读者 可 以 参考 ARM 公司 的 网 站 2 ， 那 里 有 更 多 的 解释 
和 文档 资料 。 不 同 的 ARM 处 理 器 之 间 的 指令 集 略 有 不 同 ， 上 面 给 出 的 版 本 是 较 常 用 的 
ARM7TDMI 版 本 >。 

经 过 十 多 年 的 不 断 发 展 ，ARM 公司 已 经 完成 了 品牌 的 重 塑 ， 在 此 过 程 中 将 它们 的 处 理 器 
命名 为 Cortex。 原 来 的 仍 在 传统 处 理 器 中 使 用 或 在 文档 中 提 及 的 ARM7 、ARM9 和 ARM11 处 理 
器 被 称 为 经 典 。 此 举 很 有 可 能 是 应 对 庞大 的 ARM 市 场 分 散 化 工作 的 一 部 分 ， 在 该 市 场 中 ,一 
个 基本 体系 结构 (ARM) 需要 满足 非常 广泛 和 多 样 化 的 需求 ， 其 范围 包括 从 微型 和 慢 速 传 感 
器 系 统 到 更 大 、 更 快 的 掌上 计算 机 。 在 撰写 本 书 的 时 候 ， 新 的 处 理 器 被 归 类 成 3 个 范围 ， 更 好 
地 细 分 了 ARM 设备 的 传统 优势 领域 : 

Cortex-A 系列 处 理 器 是 面向 应 用 的 。 它 们 有 内 置 的 硬件 支持 ,适合 于 运行 全 功能 的 现代 操 
作 系 统 ( 如 Linux) 以 及 图 形 丰富 的 用 户 界面 (如 Apple 的 i0S 和 Google 的 Android) 。 它 们 能 
够 处 理 从 高 效 的 Cortex- A5 到 A8、A9 直到 最 高 性 能 的 Cortex- A15 设备 。 这 些 处 理 器 都 支持 
ARM 、Thumb 和 Thumb-2 指令 集 (在 性 能 和 紧凑 性 方面 ，Thumb-2 相 较 Thumb 有 所 改进 ,但 二 
者 的 设计 原理 类 似 ) 。 

Cortex-R 系列 处 理 器 针对 的 是 有 高 性 能 要 求 的 实时 系统 ， 如 智能 手机 系统 、 媒 体 播放 器 和 
照相 机 程序 。ARM 公司 也 在 推进 Cortex-R 系列 在 汽车 及 医疗 系统 中 的 应 用 ， 在 这 种 应 用 中 可 
靠 性 和 硬 实时 反应 能 力 往 往 很 重要 。 这 些 不 需要 复杂 、 丰 富 的 操作 系统 ， 而 只 要 小 的 、 硬 性 且 
快速 的 实时 系统 。 

Cortex-M 系列 处 理 器 属于 低 端 产品 ， 用 于 比较 在 意 成 本 且 要 求 低 功 耗 的 系统 中 ， 可 以 说 它 
适用 于 传统 的 微 控制 器 型 应 用 ， 不 需要 先进 的 操作 系统 支持 (其 至 可 能 不 需要 任何 操作 系 
统 ) 。 该 系列 适用 于 没有 丰富 图 形 界面 要 求 、 时 钟 速度 不 会 超过 几 十 兆赫 效 的 应 用 。 





















加 http:Mwww. arm. com。 


加 ”此 信息 是 从 ARM 公司 公开 的 文件 DDI 0029E 中 提取 的 。 
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尽管 大 多 数 ARM7 系列 可 支持 16 位 Thumb 模式 ( 见 3.3.3 节 ), 但 所 有 的 ARM 芯片 都 支 
持 上 面 所 述 的 标准 32 位 定 长 指令 。 我 们 看 到 在 ADSP21xx 中 有 各 种 指令 组 ， 如 数据 处 理 、 乘 法 
或 分 支 等 。 如 果 有 15 个 指令 组 ， 则 需要 4 位 编码 来 表示 指令 组 ， 其 余 的 位 用 来 表示 每 组 中 具 
体 的 指令 。 

注意 所 有 的 指令 都 有 固定 的 条 件 位 ， 无 论 正在 使 用 哪个 指令 ， 条 件 位 都 位 于 指令 字 的 同一 
位 置 ， 这 种 规则 有 助 于 处 理 器 进行 指令 译 码 。 重 要 的 是 要 注意 ， 条 件 位 的 意义 是 使 每 一 个 指令 
都 可 以 有 条 件 地 操作 。 这 是 不 寻常 的 ， 在 常见 的 现代 处 理 器 中 只 有 ARM 是 这 样 的 : 大 多 数 其 
他 处 理 器 只 支持 条 件 分 支 指令 。 在 ARM 上 ， 指 令 字 中 的 $ 位 控制 该 指令 在 完成 时 是 否 可 以 改 
变 条 件 代码 〈( 见 框 3.2) 。 结 合 好 这 两 个 特点 ， 将 会 非常 灵活 、 高 效 。 
EEE 鲍 ”ARM 中 的 条 件 和 S 位 说 明 

考虑 ARM 处 理 器 的 效率 ， 将 其 与 标准 RISC 处 理 器 (其 所 有 指令 都 不 允许 条 件 操作 ) 进行 比较 。 

使 用 的 指令 助 记 符 类 似 于 ARM。 首 先 ， 我 们 测试 在 标准 RISC 处 理 器 上 的 程序 ， 将 寄存 器 RO 和 寄存 
器 R1 中 的 值 相 加 ， 然 后 根据 计算 结果 判断 ， 如 果 计 算 结果 小 于 0， 则 将 0 放 入 寄存 器 R2， 否 则 将 1 放 入 
寄存 器 R2。 


ADDS RO, RO, R1 
BLT posl (如果 小 于 0 则 执行 分 支 ) 
MOV R2, #1 
B pos2 
posl MOV R2, #0 
PosS2 


该 程序 使 用 5 条 指令 且 无 论 寄 存 器 RO 和 Rl 中 为 何 值 ， 总 会 需要 一 个 分 支 。 

下 面 的 代码 段 在 ARM 处 理 器 中 再 现 了 相同 的 行为 ， 但 使 用 了 条 件 转移 代替 分 支 。 在 这 种 情况 下 ， 
RO 和 RI1 相 加 ， 在 ADD 助 记 符 之 后 的 S 表 明 加 法 的 结果 会 更 新 内 部 条 件 标 志 。 接 下 来 ， 如 果 前 一 个 条 件 
编码 设置 指令 的 结果 小 于 0， 则 把 1 写 入 R2; 如 果 结果 大 于 等 于 0， 则 把 0 写 入 R2。 


ADDS RO, RO, R1 . 
MOVLT R2, #1 
MOVGE R2, #0 


ARM 版 本 的 代码 显然 更 短 一 一 只 需要 3 条 指令 ， 且 不 需要 分 支 结构 。 正 是 这 种 机 制 使 得 ARM 的 程 
序 更 高 效 ， 而 RISC 处 理 器 却 是 传统 低 效 率 的 代码 密度 。 在 更 高 级 的 语言 中 ， 这 种 代码 结构 则 很 常见 : 


IF condition THEN 
action 1 

ELSE 
action 2 


另外 请 注意 ， 对 于 每 条 指令 ， 目 标 寄 存 器 (如果 需 要 ) 将 与 指令 字 位 于 同一 位 置 。 


3. 3.2 ” 取 指 和 译 码 


在 一 个 现代 计算 机 系统 中 ， 正 在 运行 的 程序 通常 驻 留 在 RAM 中 (它们 可 能 是 从 硬盘 或 内 
存 复 制 到 这 里 的 ) 。 一 个 内 存 控制 器 通常 是 内 存 管理 单元 (将 在 4.3 节 讨 论 ) 的 一 部 分 ， 控 制 
外 部 RAM 并 代表 CPU 处 理 内 存 访问 。 

在 CPU 内 部 ， 取 指 和 译 码 单元 (IFDU 或 简写 为 IFU) 在 每 个 指令 周期 读 取 下 一 条 待 执行 
的 指令 。 下 一 条 指令 由 地 址 指针 来 确定 ， 地 址 指针 保存 在 程序 计数 器 (PC) 中 ， 现 在 几乎 每 
一 款 处 理 器 都 是 如 此 。 图 3-10 显示 了 一 个 典型 CPU 系统 中 内 存 控制 器 的 连接 关系 。 

程序 计数 器 通常 在 检索 到 指令 后 自动 递增 ， 因 此 它 自 然 地 “指向 ”存储 器 中 当前 指令 之 
后 的 指令 ， 即 下 一 个 指令 。 以 这 种 方式 ，CPU 可 以 通过 依次 执行 每 个 指令 来 执行 由 一 系列 指令 
组 成 的 程序 。 分 支 指令 覆盖 了 PC， 人 允许 程序 执行 的 操作 不 仅仅 是 从 一 条 指令 步 进 到 下 一 条 指 
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令 。 当 当前 指令 覆盖 PC 时 ， 意味 着 将 从 其 他 地 方 获取 下 一 条 执行 的 指令 ， 而 不 仅仅 是 下 一 条 
指令 。 由 于 PC 是 寄存 器 ， 因 此 覆盖 它 意味 着 将 不 同 的 二 进 制 值 写 人 寄存 器 。 在 一 些 处 理 器 中 ， 
二 进 制 值 是 要 执行 的 下 一 条 指令 的 地 址 ， 但 许多 RISC 处 理 器 (如 ARM) 通常 指定 当前 地 址 的 
偏 移 量 〈 即 从 当前 位 置 向 前 或 向 后 多 少 指令 ) 。 这 将 在 3. 3. 2. 3 节 中 更 全 面 地 描述 。 





图 3-10 典型 CPU 系统 中 内 存 控制 器 的 连接 关系 
一 旦 取 指 和 译 码 单元 读 取 了 一 条 指令 ， 它 便 开始 进行 解码 ， 随 后 要 执行 一 系列 如 图 3-11 
的 流程 图 所 示 的 步骤 。 





图 3-11 典型 处 理 器 的 指令 处 理 流程 图 


3. 3.2.1 指令 译 码 

在 ARM 中 ， 因 为 所 有 的 指令 都 是 有 条 件 的 ， 所 以 IFU 首先 看 指令 编码 中 的 条 件 位 ,与 当 
ep 按 位 比较 。 如 果 这 条 指令 需要 的 条 件 和 当前 条 件 标志 不 匹 

配 ， 则 丢弃 该 指令 ， 读 取 下 一 条 指令 。 

在 ARM 中 ， 指 令 集 的 简化 意味 着 每 一 个 读 取 的 指令 字 的 条 件 位 可 以 与 状态 寄存 器 的 第 
28 ~31 位 进行 简单 与 运算 (这 几 位 是 当前 条 件 标志 的 编码 ) 。 框 3.3 解释 了 ARM 中 可 用 的 相 
当 广 泛 的 条 件 码 集合 。 

我 们 再 看 一 下 ARM 指令 集 ， 所 有 指令 字 中 的 目的 寄存 器 〈 对 于 有 目的 地 址 的 指令 ) 都 位 于 
同样 的 位 置 。 译 码 时 ，IFU 简单 地 采用 4 位 (用 于 寻 址 16 个 寄存 器 ) 作为 寄存 器 组 的 目的 地 址 。 
ARM 处 理 器 中 的 条 件 码 

如 图 3-9 所 示 ，ARM 为 每 条 指令 保留 4 位 (第 31、30、29 和 28 位 ) 用 于 条 件 编码 。 这 意味 着 每 一 
条 机 器 指令 都 可 以 是 有 条 件 执行 的 〈 虽 然 用 汇编 语言 编写 时 某 些 指令 可 能 不 带 条 件 ) 。 

通常 ， 这 些 条 件 码 是 被 附加 到 指令 上 的 ， 因 此 ADDGT 是 一 条 ADD 指令 ， 只 有 当 处 理 器 的 条 件 标志 表 
明 用 于 设置 该 条 件 标志 的 上 一 条 指令 的 结果 大 于 0 时 才 会 执行 

ARM 中 条 件 的 全 集 如 下 表 所 示 (严格 来 讲 最 后 两 个 是 无 条 件 的 条 件 ) 。 
































4 位 条 件 编 码 条 件 助 记 符 含义 达成 条 件 
0000 EQ 等 于 Z=1 
0001 NE 不 等 于 Z=0 
0010 Gs 进位 设置 C=1 
0011 G6 进位 清除 C=0 
0100 MI 减 N=1 
0101 PL 加 N=0 
0110 VS 溢出 设置 V=1 
0111 VC 溢出 清除 V=0 
1000 HI 高 于 C=1, Z=0 
1001 LS 低 于 等 于 C=0, 2=1 
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( 续 ) 

4 位 条 件 编码 条 件 助 记 符 含义 达成 条 件 

1010 GE 大 于 等 于 N=V 

1011 LT 小 于 N=~V 

1100 er 夫 手 N=V, Z=0 

1101 LE 小 于 等 于 (N= ~V)orZ=1 

1110 AL 总 是 = 

1111 NV 从 不 3 


在 实际 中 ， 这 些 条 件 在 执行 计算 时 非常 有 用 ， 例 如 伪 代 码 句 子 “ 如 果 第 一 个 操作 A 的 结果 是 负 的 ， 
那么 执行 B， 否 则 执行 C。” 如果 没有 针对 每 条 指令 的 ARM 类 的 条 件 (在 大 多 数 CPU 中 ) ， 伪 代码 示例 
几乎 总 是 用 分 支 实现 ， 例 如 “如 果 第 一 个 操作 A 的 结果 为 负 ， 则 在 某 处 分 支 ， 执 行 B 且 从 分 支 返回 ， 否 
则 在 某 处 执行 分 支 和 C。” 

3. 3. 2. 2 ” 取 操 作 数 

显然 ， 操 作 数 的 值 并 不 总 是 在 指令 字 本 身 的 编码 中 。ARM 和 多 数 其 他 的 RISC 处 理 器 都 通 
过 使 用 load-store 体系 结构 进行 简化 ， 内 存 中 的 操作 数 不 能 直接 提供 给 操作 一 一 它们 必须 先 转 
移 到 寄存 器 中 。 只 有 立即 数 是 例外 ， 立 即 数 是 作为 数据 传送 指令 的 一 部 分 编码 的 ， 如 MOV 指 
令 ( 见 框 3.4 中 的 例子 ) 。 

所 以 ARM 为 一 个 操作 准备 操作 数 通常 是 通过 从 指令 字 中 解码 一 个 立即 数 ， 或 者 从 一 个 或 
多 个 源 寄存 器 或 目标 寄存 器 中 进行 选择 。 一 个 例外 是 加 载 (LDR) 和 保存 (STR) 指令 ， 它 们 
实现 内 存 和 寄存 器 之 间 32 位 值 的 移动 。 

在 许多 其 他 的 处 理 器 〈 通 常 是 CISC 体系 结构 而 不 是 RISC) 中 ， 可 能 执行 一 条 指令 就 能 够 
完成 一 个 内 存 地 址 中 数据 的 某 些 运算 ， 并 将 结果 写 回 到 另 一 个 内 存 地 址 。 显 然 在 这 种 处 理 器 
中 ， 移 动 操作 数 的 行为 将 需要 访问 几 个 独立 的 内 存 (与 CPU 相 比 ， 这 些 内 存 的 存储 是 更 缓慢 
的 ， 并 且 所 有 操作 数 在 同一 内 存 设 备 共 享 一 个 总 线 ， 必 须 轮流 存 取 和 储存 ， 这 成 为 一 个 重大 的 
性 能 瓶颈 ) 。 相 比 之 下 ，RISC 处 理 器 的 目标 是 尽量 在 一 个 时 钟 周期 内 完成 每 条 指令 ， 因 此 在 大 
多 数 的 指令 架构 中 ， 对 内 存 中 操作 数 的 缓慢 访问 是 不 允许 的 。 

3. 3. 2.3 分 支 

在 ARM 指令 集 的 分 支 指令 组 中 ， 正 如 所 料 ， 其 所 有 的 条 件 指 令 与 其 他 处 理 器 的 分 支 指令 
是 一 样 的 。 在 分 支 指令 中 , 第 24 ~ 27 位 是 表示 指令 属于 分 支 指令 组 的 唯一 标识 〈( 见 图 3-9)。 
L 位 用 来 区 分 是 跳 转 指令 还 是 调用 指令 (ARM 术语 中 称 之 为 branch-and-link ， 其 中 link 意味 着 
返回 地 址 放 在 连接 寄存 器 LR 中 ， 在 分 支 情况 下 放 在 R14 中 ) 。 除 了 指令 类 型 需要 4 位 编码 以 
外 ， 还 需要 4 位 编码 条 件 码 ， 所 以 只 剩 下 24 位 ， 这 24 位 称 为 偏 移 量 (offset) ， 它 们 标明 跳 转 
到 何 处 一 一 目的 地 指令 地 址 将 会 放 在 程序 计数 器 中 。 

由 于 ARM 是 32 位 处 理 器 ， 所 以 其 指令 字 是 32 位 宽 。 但 是 内 存 只 有 一 个 字 节 宽度 ， 这 样 
一 条 指令 占用 4 个 连续 的 内 存单 元 。ARM 的 设计 者 要 求 指 令 不 能 随便 在 某 个 地 址 开始 ， 而 只 
能 在 4 字 节 边界 处 开始 ， 即 地 址 为 0、4、8、12 等 ， 所 以 偏 移 量 是 指 4 字 节 的 块 。 

现在 计算 机 体系 结构 中 通常 有 两 种 方式 指定 跳 转 地 址 一 一 绝对 地 址 和 相对 地 址 。 绝 对 地 址 
是 指 完整 的 内 存 地 址 ， 而 相对 地 址 是 指 从 当前 位 置 向 前 或 向 后 偏 移 一 定数 量 。 随 着 计算 机 内 在 
空间 变 得 越 来 越 大 ， 由 于 单个 地 址 的 大 容量 ， 指 定 绝对 地 址 变 得 效率 低下 。 此 外 ,根据 局 部 性 
原理 ( 见 4.4.4 节 )， 分支 的 距离 (如 从 当前 指令 到 分 支 目的 地 有 多 少 条 指令 ) 通常 是 相当 小 
的 。 小 分 支 只 需要 几 个 位 数 来 指定 相对 跳 转 ， 而 绝对 跳 转 地 址 总 是 需要 指定 为 完整 地 址 (实际 
上 在 ARM 中 使 用 了 28 位 ， 因 为 指令 总 是 在 字 边 界 上 ， 如 0x0, 0x4, 0x8，0xc 等 ) 。 
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再 回 到 ARM ， 跳 转 地 址 被 称 为 偏 移 量 ， 意 味 着 它 必 须 是 一 个 和 当前 程序 计数 器 中 位 置 相 
关 的 跳 转 。 图 3-9 中 的 分 支 指令 包含 24 位 偏 移 量 的 空间 ， 可 以 指示 内 存 中 2” 个 字 距 离 〈 即 
64MiB) 的 跳 转 范围 。 当 然 偏 移 量 必须 是 有 符号 数 ， 这 样 可 以 向 前 (如 在 循环 中 ) 和 向 后 跳 
转 ， 因 此 跳 转 范围 应 该 是 上 +32MiB。 

有 限 的 跳 转 范围 是 否 成 为 一 种 限制 ? 通常 不 是 。 尽 管 代码 疯狂 地 膨胀 ， 甚 至 在 撰写 本 书 时 
就 如 此 ， 但 单个 的 程序 通常 不 会 超过 64MiB 长 度 。 因 此 ， 这 可 能 是 ARM 的 设计 者 们 为 照顾 到 
指令 的 绝 大 多 数 跳 转 要 求 而 设置 的 限制 。 

然而 一 个 32 位 内 存 总 线 允 许 最 多 编 址 4GiB 的 内 存 空间 ， 这 远 远 大 于 地 址 跳 转 的 能 力 ， 因 
此 如 果 需 要 一 个 70MiB 的 跳 转 ， 该 如 何 实现 呢 ? 

在 这 种 情况 下 ，ARM 提供 一 个 分 支 交 换 (branch and exchange) 指令 。 用 这 条 指令 , 目的 
地 址 首先 被 加 载 到 一 个 寄存 器 (32 位 宽 ) 中 ， 然后 这 条 指令 发 出 命令 跳 转 到 该 寄存 器 所 保存 
的 这 个 地 址 。 当 然 ， 新 的 问题 又 来 了 ， 寄 存 器 自己 如 何 加 载 一 个 32 位 数 呢 ? 3. 3. 4 节 将 讨论 寻 
址 模式 ， 其 中 一 种 是 立即 数 一 一 数值 作为 指令 的 一 部 分 被 编码 。 框 3.4 中 也 讨论 了 在 MOV 指 
令 中 如 何 加 载 立 即 数 。 
理解 ARM 中 的 MOV 指令 

和 所 有 ARM 指令 一 样 ，MOYV 指令 也 是 32 位 长 ， 其 格式 如 下 : 


| 4 位 条 件 码 | 0 | 0 | 1 | 操作 码 | s | Rn | Rd | 4 位 循环 次 数 | 8 位 立即 数 | 
或 者 
4 位 条 件 权 | 0 | 0 | 0 | 操作 码 | s | Rn | Rd | 立即 数 /寄存 器 移 位 和 Rm | 


4 位 条 件 码 在 所 有 ARM 指令 中 都 有 ， 操 作 码 (opcode) 定义 数据 处 理 类 的 确切 指令 ，Rn 是 第 一 个 操 
作 数 寄存 器 ，Rd 是 第 二 个 操作 数 寄存 器 ， 通 过 设置 第 25 位 为 1 来 选择 ，Rm 是 第 三 个 操作 数 寄存 器 。 我 
们 将 主要 针对 第 一 种 命令 格式 ， 这 里 提供 了 一 个 8 位 的 立即 数 和 一 个 4 位 的 循环 次 数 (实际 的 循环 次 数 
是 给 定 值 的 两 倍 并 始终 是 一 个 右 移 的 移动 ， 环 绕 意味 着 字 末尾 向 右 移 位 的 位 插入 到 左 端 ) 。 其 中 操作 玛 
被 指定 为 MOV 指令 ,立即 数 经 过 指定 次 数 的 循环 移 位 后 加 载 到 目的 寄存 器 。 下 面 是 几 个 例子 


MOV R5, #0xFF ;Rd=5,Rn =0,rotation=0,value = OxFF 
MOV R2, #0x10C ;Rd=2,Rn=0,rotation = 15,value=0x43 (加 载 值 : 0x43>>30) 


注意 : 对 这 些 MOV 指令 ，Rn 由 于 没有 用 到 因而 总 被 置 0。 

问题 : 处 理 器 如 何 将 一 个 寄存 器 值 设 为 0xFOFFFFFF? 

答案 : 程序 员 可 能 会 写成 : 

MOV RO, #0XFOFFFFFF 

但 汇编 器 可 能 会 发 出 警告 (如 提示 “立即 数 的 值 太 大 ”或 类 似 的 信息 )， 因 为 无 论 怎样 移 位 ， 指 定 的 
32 位 值 也 无 法 放 进 8 位 寄存 器 。 一 些 汇编 器 或 有 经 验 的 程序 员 知 道 将 其 转换 为 一 个 “move NOT” 指令 : 


MVN RO, #0x0F000000 ;Rd=0,Rn=0,rotation =4,value 一 0xOF (加 载 值 : 0xF>>8) 


正如 你 所 看 到 的 ， 尽 管 指令 字段 内 只 能 容纳 相对 较 小 的 立即 数 ， 但 结合 指令 的 灵活 性 和 移 位 ， 实 际 
上 可 以 编码 相当 大 范围 的 常数 。 

3.3.2.4 立即 数 

用 32 位 的 指令 字 ， 不 可 能 传送 一 个 32 位 的 常数 以 及 专用 条 件 位 、 目 的 寄存 器 、S 位 等 信 
息 ， 因 此 立即 数 (编码 在 指令 中 的 值 ) 必须 小 于 32 位 。 

在 ARM 中 ,立即 数 通过 MoV 指令 (属于 数据 处 理 指令 组 ) 加 载 到 一 个 寄存 器 。 立 即 数 可 
以 放 到 ARM 指令 集 (图 3-9) 中 标 为 “第 二 个 操作 数 ” 的 位 置 ,但 不 是 所 有 的 操作 数位 都 用 
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于 存放 立即 数 ， 实 际 上 ， 只 有 8 位 用 于 存放 立即 数 ， 剩 下 的 4 位 用 来 指定 循环 移 位 次 数 。 
因此 ， 虽然 处 理 器 有 32 位 的 寄存 器 ， 但 只 能 加 载 8 位 数字 。 但 由 于 有 循环 移 位 机 制 (用 4 
位 表示 循环 ， 可 指定 向 左 或 向 右 的 15 个 位 置 )， 可 以 获得 很 大 范围 的 数字 ， 这 些 数字 由 一 个 8 
位 立即 数 循环 得 到 。 框 3.4 详细 展示 了 ARM 处 理 器 中 Mov 指令 的 位 字段 ， 我 们 可 以 看 到 其 如 
何 影 响 指 令 的 灵活 性 。 
许多 处 理 器 的 工作 方式 不 同 。 它 们 通常 允许 一 次 加 载 至 少 16 位 的 立即 数 ， 这 16 位 是 作为 
指令 字 的 一 部 分 编码 的 。CISC 处 理 器 常常 是 可 变 长 度 的 指令 ,或 者 使 用 两 个 连续 的 指令 。 一 
个 变 长 指令 在 加 载 8 位 常数 时 可 能 是 16 位 长 的 ， 当 加 载 16 位 或 24 位 常数 时 可 能 是 32 位 长 的 。 
变 长 指令 要 求 取 指 单元 非常 复杂 ， 因 此 得 到 同样 结果 的 更 简单 方法 是 使 用 两 条 连续 的 指令 。 第 
一 条 指令 可 能 表示 “ 取 下 一 条 指令 中 的 数 到 寄存 器 R2”" ， 因 此 IFU 只 需 直 接 读 取 下 一 个 值 放 到 ”| 3 
寄存 器 ， 而 不 用 再 进行 译 码 。 这 显然 意味 着 某 些 指令 需要 两 个 指令 周期 完成 ， 从 而 产生 时 间 代 ”| 94 
价 ， 尤 其 是 在 流水 线 处 理 器 中 ( 见 5.2 节 )。 
以 ARM 处 理 器 为 例 ， 尽 管 有 对 立即 数 的 限制 ， 但 实际 上 很 多 常数 都 可 以 用 一 个 8 位 值 加 
上 移 位 来 编码 ， 所 以 这 并 没有 成 为 非常 严重 的 性 能 瓶颈 。ADSP2181 也 用 类 似 的 方式 处 理 立即 
数 负载 ， 并 已 经 设计 为 高 速 单 周期 操作 。 


3. 3.3 压缩 指令 集 


霍 夫 曼 编码 (Huffman encoding) 用 于 提高 处 理 器 效率 ,尤其 是 在 变 长 指令 的 处 理 器 中 。 
事实 上 ， 稍 后 我 们 将 看 到 ， 类 似 的 方法 即使 在 一 个 定 长 的 处 理 器 中 也 可 以 使 用 ， 但 这 里 效率 不 
是 我 们 考虑 的 主要 因素 。 

霍 夫 曼 编码 的 基本 原理 是 减少 最 常用 指令 的 长 度 而 增加 最 不 常用 指令 的 长 度 ， 从 而 使 平均 
指令 长 度 减 少 。 显 然 ， 这 需要 了 解 指令 发 生 概率 的 相关 知识 ， 然 后 让 表示 指令 的 编码 长 度 与 其 
概率 成 反比 。 框 3. 5 给 出 了 一 个 应 用 霍 夫 曼 编码 的 指令 集 设 计 实 例 。 

应 该 指出 ， 在 现实 世界 中 ， 相 比 于 平均 情况 ， 一 个 特定 的 应 用 可 能 会 出 现 非常 不 同 的 指令 
概率 统计 。 例 如 ， 执 行 复杂 计算 的 程序 比 仅 对 外 部 事件 做 出 反应 的 程序 具有 更 多 的 数据 人 处理 指 
令 ， 再 例如 将 像素 “绘制 ”到 存储 器 中 以 在 屏幕 上 显示 。 

霍 夫 曼 编码 简介 

例如 处 理 器 有 5 条 指令 ， 为 此 做 了 一 个 1000 条 指令 的 软件 程序 的 分 析 ， 得 到 各 指令 发 生 的 次 数 情况 
如 下 : 

CALL 60, ADD 300, SUB 80, AND 60, MOV 500 

在 该 指令 集中 如 果 对 各 种 指令 的 表示 采取 等 长 编码 ， 则 需要 3 位 (因为 那样 最 多 允许 7 种 可 能 )。 忽 
略 操作 数 ， 表 示 整 个 程序 需要 1000 x3 位 =3000 位 。 

处 理 器 设计 者 希望 采用 霍 夫 曼 编 码 来 减少 程序 的 大 小 。 首 先 ， 计 算 每 条 指令 执行 的 概率 (用 每 条 指 
令 的 执行 次 数 除 以 总 次 数 ) : 

CALL 0.06, ADD 0.3, SUB 0.08, AND 0.06, MOV 0.5 

接 下 来 ， 按 照 概率 对 它们 排序 ， 将 最 低 的 两 个 概率 (CALL 和 AND) 组 合 在 一 起 (现在 表示 为 C/ 
A)， 并 重新 排序 列表 ， 分 别 如 下 : 


| MOV 0.5 MOV 0.5 | 
| ADD 0.3 ADD 0.3 
SUB 0. 08 | C/A 0. 12 
CALL 0. 06 SUB 0. 08 
AND 0. 06 


























重复 这 个 过 程 ， 直 到 只 留 下 两 个 选项 : 


| MOV 0.5 | MOV 0.5 MOV 0.5 MOV 0.5 
| ADD 0.3 | ADD 0.3 ADD 0.3 C/A/S/A 0.5 
| SUB 0. 08 C/A 0. 12 C/A/S 0.2 
































CALL 0. 06 SUB 0. 08 | 
AND 0. 06 | | 
接 下 来 ， 从 右 向 左 遍历 这 棵 树 ， 对 每 一 列 最 下 面 的 两 项 进行 编号 ,将 上 面 的 指定 为 二 进 制 “1”, 下 


面 的 指定 为 二 进 制 “0”， 必 须 在 遍历 过 程 中 将 这 些 数字 记录 下 来 ， 其 他 的 列 项 只 需 简单 地 跟 左 边 一 样 即 
可 ,不 需要 多 写 ， 直 到 到 达 左 这 的 原始 指令 则 停止 。 

例如 最 右边 的 列 ，“1” 表 示 MOV，“0” 表 示 CALL/AND/SUB/ADD 中 的 任何 一 个 ; 向 左 ， 现 在 
“01” 表 示 ADD, 而 “00” 是 CALL/AND/SUB 的 前 级 ; 下 一 列 ,“001” 表 示 CALL 或 AND,“000” 表 和 示 
SUB。 写 下 这 些 可 以 得 到 : MOV 是 “1”，ADD 是 “01”, SUB 是 “000”，CALL 是 “0011” 以 及 AND 是 
“0010”。 如 果 我 们 关注 每 种 操作 使 用 的 位 数 ， 会 发 现 最 常用 的 指令 (MOV) 只 用 一 位 表示 ， 而 最 不 常用 
的 指令 (AND) 需要 4 位 ， 因 此 这 种 编码 方法 看 起 来 在 用 较 少 位 数 表示 最 常用 指令 方面 是 有 效 的 。 利 用 
原始 的 每 种 操作 的 发 生 次 数 和 霍 夫 曼 指 令 位 数 ， 我 们 可 以 计算 新 的 程序 大 小 : 

(500 x1) +(300 x2) +(80x3) +(60 x4) +(60 x4) = 1820 

这 显然 小 于 固定 3 位 表示 法 所 用 的 3000 位 。 

多 数 ARM 处 理 器 包含 男 一 种 16 位 指令 集 ， 称 为 Thumb 或 Thumb-2。 该 设计 是 为 了 提高 代 
码 密度 ， 特 别 是 提高 需要 相对 简单 的 处 理 的 嵌入 式 应 用 程序 的 代码 密度 。 但 是 请 注意 ， 即 使 给 
定 内 存 的 大 小 可 以 支持 两 倍 的 Thumb 指令 ， 相 比 于 32 位 ARM 指令 ,平均 来 讲 ， 实 现 和 译 码 后 
所 映射 的 底层 ARM 指令 相同 的 功能 也 需要 更 多 的 Thumb 指令 (这 主要 是 因为 供 选 择 的 不 同 
Thumb 指令 较 少 ,或 者 可 能 是 因为 ARM 模式 是 先 开发 的 )。 这 种 Thumb 模式 的 效率 主要 是 通 
过 减少 从 外 部 存储 器 获取 的 带宽 (位 / 秒 ) 而 不 是 通过 内 部 CPU 的 加 速 来 获得 的 。 

ARM 工程 师 设计 Thumb 指令 集 的 过 程 是 值得 注意 的 ， 因 为 他 们 使 用 了 类 似 于 霍 夫 曼 编码 
的 方法 。ARM 工程 师 考 察 了 一 个 应 用 程序 代码 实例 的 数据 库 ， 并 计算 出 每 个 指令 的 使 用 次 数 ， 
只 有 最 常见 的 指令 才 会 出 现在 Thumb 模式 中 。 在 固定 的 16 位 指令 字 里 面 ， 用 于 表示 指令 的 二 
进 制 编码 是 基于 其 他 操作 数 所 需 位 数 的 长 度 编码 。 

Thumb 指令 集 的 一 些 特点 如 下 : 
只 有 一 个 条 件 指 令 ( 偏 移 量 跳 转 ) 。 
没有 “S” 标 志 位 ， 多 数 Thumb 指令 自动 更 新 条 件 标 志 。 
目的 寄存 器 通常 和 源 寄存 器 是 一 个 (在 ARM 模式 中 ， 目 的 和 源 通常 是 分 开 指定 的 ) 。 
所 有 的 指令 都 是 16 位 的 〈 但 寄存 器 和 内 部 总 线 宽度 还 是 32 位 )。 
立即 数 的 寻 址 方式 和 偏 移 地 址 非常 受 限 。 
多 数 指令 只 能 访问 (16 位 寄存 器 中 的 ) 低 8 位 寄存 器 。 

Thumb 指令 集 的 复杂 程度 远 远 超过 ARM 指令 集 ， 尽 管 其 译 码 过 程 ( 从 Thumb 指令 被 从 内 存 中 
取出 到 ARM 指令 准备 好 在 处 理 器 中 执行 ) 是 自动 完成 ， 并 且 速 度 很 快 。 下 面 是 指令 的 一 些 例子 : 


16 位 二 进 制 指令 位 模式 
条 件 (4 位 ) 














举例 | 














偏 移 量 (8 位 ) 
偏 移 量 (11 位 ) 


条 件 分 支 BLT loop | 
| 0 分 支 B main 
| ol001 | 目的 寄存 器 (4 位 ) | ” 偏 移 量 (8 位 ) ”| 读 内 存 中 的 数据 到 寄存 器 | LDR R3,[ Pc, 机 0] 
立即 数 (7 位) 堆栈 加 法 ADD SP, SP, a3 


从 这 些 例 子 可 以 看 到 ， 少 数 的 几 个 最 高 位 表示 指令 ， 实 际 上 整个 指令 集 的 这 个 长 度 范围 是 
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从 3 位 到 9 位 。 在 所 示 的 ADD 指令 中 ， 在 其 上 操作 的 寄存 器 是 固定 的 : 只 能 和 堆栈 相 加 一 一 
几乎 所 有 指令 均 可 在 任何 寄存 器 上 操作 这 种 ARM 指令 集 的 灵活 性 和 规律 性 丢失 了 一 一 这 是 考 
虑 到 了 软件 中 最 常用 的 操作 。 

应 该 指出 一 点 ，Thumb 指令 集 是 16 位 宽 ， 当 到 外 部 存储 器 的 接口 是 16 位 时 它 才 真 正 处 于 
最 佳 状态 ， 在 这 种 情况 下 ， 每 个 ARM 指令 需要 两 个 内 存 周期 来 读 取 (导致 处 理 器 只 能 以 其 最 
高 速度 的 一 半 运 行 ) ， 而 Thumb 代码 可 以 全 速 执行 。 


3. 3.4 寻 址 模式 


寻 址 模式 描述 了 确定 指令 中 操作 数 的 不 同方 法 。 有 许多 种 操作 指令 ， 它 们 可 能 不 含 操作 
数 ， 可 能 含 一 个 操作 数 ， 或 者 两 个 、 三 个 操作 数 。 特 殊 情况 下 也 有 超过 三 个 操作 数 的 指令 。 多 
数 现代 处 理 器 中 常见 的 非 零 操 作 数 的 例子 如 下 : 











类 型 例子 操作 数 
单 操作 数 ” B addqress 地 址 可 能 是 直接 给 出 的 ， 可 能 是 一 个 距离 当前 位 置 的 
偏 移 量 ， 也 可 能 是 一 个 存储 在 寄存 器 /内 存 位 置 中 的 地 址 
双 操 作 数 NOT destination, Source 目的 或 源 操作 数 可 能 是 寄存 器 、 内 存 地 址 或 由 寄存 器 


指定 的 内 存 地 址 。 源 操作 数 还 可 能 是 一 个 立即 数 


三 操作 数 ADD destination, source, source 目的 或 源 操 作 数 可 能 是 寄存 器 、 内 存 地 址 或 由 寄存 器 


指定 的 内 存 地 址 。 源 操作 数 还 可 能 是 一 个 立即 数 


当然 ,并非 所 有 可 能 的 操作 数 类 型 都 适用 于 所 有 的 指令 ， 在 某 些 处 理 器 中 有 些 操作 数 还 不 
能 使 用 (例如 RISC 处 理 器 的 load-store， 通 常 限 制 算术 运算 指令 的 操作 数 是 寄存 器 ， 而 在 CISC 
处 理 器 中 它们 可 以 存储 在 内 存 中 或 其 他 地 方 ) 。 最 后 一 点 需要 注意 的 是 上 面 例子 中 的 后 两 个 ， 
假设 其 第 一 个 操作 数 是 目的 数 一 一 对 于 ARM 汇编 语言 即 如 此 ， 但 对 其 他 一 些 处 理 器 则 相反 
( 见 3.2.7 节 )。 这 可 能 是 对 不 同 处 理 器 编写 汇编 代码 时 引起 混淆 的 真正 原因 (也 是 计算 机 体系 
结构 讲师 /作者 的 职业 风险 所 在 ) 。 

术语 寻 址 模式 (addressing mode) 指 加 载 或 存储 时 地 址 的 表示 方式 ， 使 用 一 种 或 几 种 不 同 
的 技术 。 下 表 列 出 了 常用 的 寻 址 模式 ， 以 ARM 风格 的 汇编 语言 为 例 (虽然 应 该 指出 PUSH 不 
存在 于 ARM 指令 集中 ， 只 在 Thumb 中 才 有 ) 。 























名 称 举例 解释 含义 
立即 数 寻 址 MOV RO ,#0x1000 传送 十 六 进 制 值 0x1000 到 寄存 器 RO 
绝对 寻 址 LDR RO ,#0x20 加 载 内 存 地 址 为 0x20 处 的 内 容 到 RO 
寄存 器 直接 寻 址 NOT RO,R1 将 Rl 中 的 内 容 取 反 并 存储 到 RO 中 
寄存 器 间接 寻 址 ”LDR R0,[RL] 如 果 R1 中 有 值 0x123， 那 么 取出 内 存 中 0x123 位 置 的 内 容 并 放 入 RO 
堆栈 寻 址 PUSH RO 在 这 种 情况 下 ，R0 中 的 内 容 被 人 栈 (假设 只 有 一 个 堆栈 ) 


如 下 扩展 和 组 合 的 基本 思路 也 很 常见 。ARM 风格 的 汇编 程序 因为 易于 简化 说 明 而 再 次 得 
到 使 用 (但 应 该 注意 ，ARM 不 支持 指令 LDR R0, [R1,R2,#3]， 它 可 以 处 理 寄存 器 间接 寻 址 、 
索引 和 偏 移 寻 址 ， 但 是 不 能 同时 完成 这 些 ) 。 











名 称 举例 在 R1 =1& R2 =2 时 
寄存 器 相对 间接 寻 址 LDR R0,[R1L, 相 ] 第 二 个 操作 数 的 内 存 地 址 为 1 +5 =6 
基 址 加 变 址 寄存 器 间接 寻 址 STR RO,[ R1,R2] 第 二 个 操作 数 的 内 存 地 址 为 1 +2 =3 
相对 基 址 加 变 址 寄存 器 间接 寻 址 ”LDR R0,[R1,R2, 想 ] 第 二 个 操作 数 的 内 存 地 址 为 1 +2 +3 =6 


寄存 器 移 位 间接 寻 址 STR R0,[RL,R2,LSL #2 ] 第 二 个 操作 数 的 内 存 地 址 为 1+(2 <<2) =9 
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各 种 处 理 器 ， 包 括 ARM 和 ADSP2181， 还 提供 一 种 自动 方式 以 便 在 寄存 器 被 用 作 偏 移 地 址 
后 对 它们 进行 更 新 。 例 如 ， 用 立即 数 偏 移 的 寄存 器 间接 访问 ， 在 偏 移 量 加 完 之 后 会 更 新 这 个 寄 
存 器 。 如 下 面 的 例子 所 示 ， 其 中 R1 =0x22: 


LDR RO, [R1], #5 将 内 存 地 址 22 处 的 内 容 加 载 到 RO 中 ， 
然后 设置 R1=0x22+0x5=0x27 
LDR RO, [R1, #5]! 设置 R1=0x22+0x5=0x27， 然后 把 内 存 


地 址 27 处 的 内 容 加 载 到 RO 中 
注意 ， 我 们 并 不 想 在 这 里 教 大 家 ARM 指令 集 的 细节 ， 只 是 以 此 作为 底层 寻 址 技术 的 辅助 


教学 5 
分 析 这 些 局 限 性 使 得 CPU 的 设计 者 必须 在 处 理 器 中 提供 某 些 层次 的 功能 除了 关注 指 
令 集 之 外 ， 没 什么 更 能 揭示 这 些 限制 ， 在 这 方面 CISC 处 理 器 更 有 意思 。 下 面 给 出 了 一 些 例 子 ， 
假设 有 一 个 CISC 处 理 器 ， 主 存 地 址 mA、mB 和 mC 用 于 绝对 操作 数 存储 ， 还 有 一 个 RISC 处 理 
器 ， 其 中 寄存 器 RO、R1 和 R2 用 于 寄存 器 直接 寻 址 : 
e ClISC 处 理 器 : ADD mA, mB, mC ; mA=mB+mC 
这 里 ， 一 且 CPU 读 取 了 指令 并 进行 译 码 ， 它 必须 进一步 读 取 存 储 了 操作 数值 mB 
和 mC 的 两 个 内 存 地 址 的 数据 ， 这 可 能 需要 两 个 内 存 总 线 周期 。 然 后 这 些 值 被 内 部 总 
线 传送 到 ALU (由 于 是 顺序 进行 的 ， 因 此 只 需要 一 组 总 线 )。 一旦 ALU 计算 出 结果 ， 
则 结果 通过 总 线 传 送 到 内 存 接 口 ， 以 写 回 到 主 存 中 mA 的 位 置 。 
该 指令 的 开销 除了 ALU 的 运算 时 间 之 外 ,还 有 三 个 外 部 存储 周期 。 外 部 存储 周期 
通常 远 远 慢 于 内 部 ALU 操作 ， 所 以 这 显然 是 一 个 瓶颈 。 只 需要 在 处 理 器 中 配备 一 个 内 
部 总 线 即 可 解决 这 一 问题 。 
指令 字 中 必须 包含 三 个 绝对 地 址 。 对 32 位 内 存 ， 等 于 96 位 ， 构 成 一 个 很 长 的 指 
令 字 。 这 可 以 通过 偏 移 量 或 相对 地 址 来 缩减 位 数 ， 但 对 32 位 来 说 可 能 仍然 太 长 了 。 
e RISC 处 理 器 : ADD RO0，R1，R2 ; RO =Rl +R2 
现在 用 寄存 器 来 完成 同样 的 操作 。 所 有 操作 数 的 值 都 已 经 在 CPU 内 部 ， 这 意味 着 
可 以 快速 地 访问 它们 。 一 旦 指令 被 读 取 并 译 码 ， 寄 存 器 R1 将 驱动 一 个 内 部 操作 数 总 
线 ， 同 时 寄存 器 R2 驱动 男 一 个 内 部 操作 数 总 线 。 因 此 在 一 个 很 快 的 内 部 总 线 周 期 内 ， 
两 个 操作 数 都 被 送 到 ALU。 一 旦 ALU 计算 完结 果 ， 一 个 内 部 结果 总 线 将 获得 该 值 。R0 
将 会 监听 这 个 总 线 ， 在 适当 的 时 候 ， 从 该 总 线 上 锁 存 结果 值 。 
指令 的 开销 除了 ALU 的 运算 时 间 外 ， 还 有 两 个 快速 内 部 总 线 周 期 。 在 我 们 讲述 的 
例子 中 ，CPU 必须 包含 三 条 内 部 总 线 : 两 条 用 于 同时 传送 操作 数 ， 一 条 用 于 收集 结果 。 
其 他 类 似 的 安排 也 是 有 可 能 的 。 
指令 字 需 要 包含 三 个 寄存 器 值 ， 然 而 ， 对 一 个 有 32 个 寄存 器 的 寄存 器 组 来 说 ， 只 
需要 5 位 即 可 指定 每 个 寄存 器 ， 因 此 总 共 需 要 15 位 。 这 很 容易 将 操作 编码 在 32 位 宽 
的 指令 中 。 
e CISC 处 理 器 : ADD mA, mB ; mA=mA+mB 
类 似 于 第 一 个 例子 ，CPU 必须 读 取 存 储 了 操作 数值 的 两 个 外 部 存储 位 置 ， 需 要 两 
个 内 存 总 线 周 期 ， 也 需要 将 结果 传送 回 内 存 ， 因 此 执行 时 间 没 有 变 。 
但 是 ， 这 次 指令 字 只 需要 包含 两 个 绝对 地 址 而 不 是 三 个 。 这 在 实际 系统 中 是 可 行 
的 ， 尤其 是 在 第 一 个 操作 数 用 绝对 地 址 而 第 二 个 用 偏 移 量 的 情况 下 。 








名” 建议 那些 想 要 了 解 ARM 指令 集 的 读者 参考 ARM System Architecture 这 本 书 ， 作 者 是 Steve Furber (ARM 处 理 
器 的 发 明 者 之 一 ) 。 
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e CISC 处 理 器 : ADD mB ; RACC =mB +RCC 
20 世纪 80 年 代 及 更 早 的 CISC 处 理 器 通常 使 用 的 是 累加 器 。 它 们 是 通用 寄存 器 
(寄存 器 组 的 前 身 ) ， 被 用 作 存 储 所 有 算术 和 数据 处 理 操作 的 操作 数 ， 以 及 保存 这 些 操 
作 的 结果 。 另 一 个 操作 数 几 乎 总 是 来 自 内 存 中 的 一 个 绝对 值 。 本 例 中 ， 指 令 需 要 在 加 
法 之 前 从 内 存 加 载 一 个 值 ， 因 此 涉及 一 个 外 部 存储 总 线 周期 。 
指令 字 只 需要 包含 一 个 内 存 绝对 地 址 ， 这 可 以 通过 加 载 一 个 包含 该 地 址 的 第 二 个 
指令 字 来 实现 〈 因 此 在 指令 执行 前 需要 先 读 取 两 条 指令 ) 。 
e 堆栈 处 理 器 : ADD 
这 是 一 个 特殊 情况 (将 会 在 下 一 节 进 一 步 讨论 )，CPU 弹出 栈 顶 两 个 数 ， 相 加 后 
再 将 结果 入 栈 。 这 需要 访问 栈 ， 如 果 栈 是 一 个 内 部 存储 块 ， 访 问 会 很 快 ， 但 栈 更 多 的 
是 位 于 片 外 存储 上 。 使 用 堆栈 方法 的 主要 好 处 是 指令 不 再 需要 编码 任何 内 存 地 址 。 从 
理论 上 说 ， 这 可 以 得 到 一 个 非常 小 的 指令 宽度 。 


3. 3.5 堆栈 机 和 逆 波 兰 表示 法 

人 们 通常 采用 中 组 表示 法 表示 一 个 写 在 纸 上 的 运算 (如 a+4b:+c)， 其 中 公认 的 运算 符 优 
先 级 (可 以 通过 使 用 括号 改变 ) 决定 了 各 种 运算 执行 的 顺序 。 波 兰 表 示 法 (注意 不 是 逆 波兰 
表示 法 ) 是 由 波兰 数学 家 Jan Lukasiewicz 在 20 世纪 20 年 代 发 明 的 ， 将 运算 符 放 在 操作 数 的 前 
面 ， 因 此 是 一 个 前 组 表示 法 。 通 过 这 种 方式 指定 操作 数 ， 运 算 符 优先 级 则 不 重要 了 ， 因 此 不 再 
需要 括号 。 

相反 ， 逆 波兰 表示 法 (RPN) 是 一 个 后 组 表示 法 ， 等 式 的 顺序 即 完 全 定义 了 优先 级 。 这 是 
在 20 世纪 50 ~60 年 代 ， 为 辅助 基于 堆栈 体系 结构 的 工作 而 创造 的 。 它 后 来 被 两 代 HP 电子 计 
算 器 用 户 引 进 。 

RPN 的 一 个 例子 如 bc -a+ ， 其 中 操作 数 和“ 先 给 出 ， 且 随后 是 相 除 的 命令 并 保存 结果 。 
然后 操作 数 a 被 加 载 ， 并 跟随 一 个 加 法 命令 ， 把 前 面 的 结果 加 到 a 上， 并 将 新 的 结果 存储 在 某 
个 地 方 。 以 下 是 更 多 的 例子 。 











中 缀 后 组 中 绥 后 缀 
axb ab x (109 -10) +9 109 ，10 -9 二 
a+b-e ab+c— (Ox1000 x2) +0x20 Ox1000,2 x0x20+ 
(a+b)=e ab +e= 





考虑 这 几 个 操作 ， 显 然 使 用 堆栈 是 执行 
RPN 运算 的 一 个 有 效 方式 。 这 种 情况 下 ， 一 个 
堆栈 是 一 个 存储 设备 ， 有 单一 的 入 口 / 出 口 。 数 
字 可 以 被 推 人 堆栈 的 “ 顶 ” 部 ， 再 从 “ 顶 ” 部 
弹出 去 。 这 是 一 种 后 进 先 出 (LIFO) 结构 。 
图 3-12 显示 了 一 个 用 堆栈 运行 ab + 的 例 栈 空 ” a 入 栈 5b 入 栈 

子 ， 从 在 向 有 读 。 震 要 注意 的 是 ， 每 个 步 机 只 。 图 3-12 坟 相 理 过 示意 ， 机 个 扣 作 数 按 
有 一 次 入 栈 (在 基于 堆栈 的 处 理 器 中 每 一 步 可 栈 ， 行 运 
能 需要 一 个 周期 ) ， 尽 管 弹出 的 数字 个 数 由 该 和 





加 ”许多 读者 可 能 还 记得 ， 在 小 学 学 算术 时 ， 为 了 辅助 记忆 优先 级 所 学 的 BODMAS 缩写 。BODMAS 代表 : 括号 
(Bracket) 、 级 数 (Order， 即 寡 和 平方 根 ) 、 除 法 (Division) 、 乘 法 (Multiplication ) 、 加 法 (Addition) 和 
减法 (Subtraction ) 。 见 http: /www. malton. n-yorks. sch. uk/ MathsWeb/reference/ bodmas. html。 
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操作 所 需 的 操作 数 个 数 决定 。 例 如 ，ADD 需要 两 个 操作 数 ， 因 此 通过 两 次 POP 操作 将 操作 数 
加 载 到 ALU。 每 个 运算 操作 的 结果 被 推 回 栈 顶 。 

考虑 用 这 样 一 个 堆栈 机 去 执行 一 个 复杂 程序 任务 会 很 有 趣 。 对 简单 操作 看 起 来 似乎 有 效 ， 
但 有 时 ， 堆栈 经 过 一 系列 操作 后 的 最 终 状 态 可 能 是 在 栈 项 没有 得 到 正确 的 结果 。 这 可 能 是 由 多 
任务 或 中 断 服务 例 程 引起 的 。 必 须 有 一 个 堆栈 重新 排序 的 方式 ， 如 将 数据 项 弹出 栈 并 存储 到 主 
存 ， 再 以 不 同 的 顺序 将 它们 推 人 栈 。 这 可 能 是 一 个 非常 耗 时 的 过 程 ， 会 严重 影响 堆栈 机 的 整体 
性 能 。 这 一 过 程 也 在 框 3. 6 中 进行 了 讨论 ， 重 新 排序 以 尽量 缩减 堆栈 的 使 用 。 
重 编码 RPN 指令 以 缩减 堆栈 空间 

考虑 中 组 表达 式 a+ (bxc)， 由 于 加 法 顺序 对 最 终结 果 并 不 重要 ， 因 此 该 表达 式 也 可 以 写成 (bx 
c) +ao 


对 每 个 表达 式 ， 写 下 其 后 级 表达 式 ， 并 写 出 执行 需要 的 推 栈 操 作 顺 序 。 考 虑 每 个 表达 式 的 扒 栈 使 用 


情况 。 

应 当 明 确 ， 表 达 式 的 一 种 写法 使 用 的 最 大 扒 栈 深度 是 3 层 位 置 ， 而 另 一 种 写法 使 用 的 扒 栈 深度 只 有 
2 层 位 置 。 

看 来 ， 后 缀 表达 式 的 顺序 可 以 显著 影响 所 需 的 堆栈 资源 (因此 也 是 硬件 资源 )， 尽 管 这 并 不 会 改变 
整个 计算 所 需 的 步骤 数 。 

并 非 所 有 的 中 缀 表达 式 都 对 顺序 不 敏感 ， 加 法 和 乘法 可 以 , 但 除法 和 减法 是 绝对 不 行 的 。 
3.4 数据 处 理 


到 目前 为 止 ， 本 章 一 直 在 讨论 CPU 基础 一 一 什么 是 计算 机 和 计算 机 的 组 成 。 我 们 已 经 提 
到 了 指令 和 程序 等 。 作 为 其 中 的 一 部 分 ，3. 3 节 讲 述 的 是 指令 处 理 ， 包 括 一 些 变量 以 及 寻 址 方 
式 等 重要 子 课题 。 

后 面 的 3.5 节 将 从 自 项 向 下 的 角度 去 看 计算 机 。 然 而 ， 在 高 层次 总 览 和 低层 次 细节 这 两 个 
极端 之 间 ， 有 一 个 哲学 问题 ， 那 就 是 计算 机 的 目的 是 什么 。 我 们 可 以 借用 “黑匣子 ” (black 
box) “来 举例 ， 从 黑匣子 的 角度 ， 我 们 把 计算 机 看 作 这 样 一 个 事物 : 它 修改 一 些 输 入 数据 ， 产 
生 一 些 输出 数据 。 

输入 数据 和 输出 数据 都 有 很 多 种 形式 : 指令 、 知 识 、 传 感 器 采集 的 数据 、 多 媒体 等 。 对 于 
某 些 系 统 ， 输 入 数据 可 能 是 由 某 个 单一 触发 事件 组 成 ， 输 出 数据 可 能 是 由 一 些 驱动 器 开关 执行 
信号 组 成 。 在 控制 系统 中 就 是 这 样 的 ， 它 通常 是 因为 实时 处 理 数据 (实时 问题 将 在 6. 4 节 深 入 
讨论 ) 的 需求 而 执行 的 。 某 些 系统 是 数据 密集 型 的 一 一 输入 或 者 输出 由 稠密 的 数据 流 组 成 ， 比 
如 数字 音频 或 者 视频 ， 这 些 系统 也 需要 实时 处 理 。 然 而 ， 大 部 分 的 计算 机 系统 都 是 通用 机 器 ， 
它 既 能 够 执行 控制 也 能 够 执行 数据 处 理 任务 ,很 少 涉及 实时 间 题 。 

这 里 我 们 讨论 的 主题 是 数据 : 计算 机 处 理 数据 ， 无 论 它 是 一 个 一 位 触发 器 ， 有 非常 严格 的 
时 序 要 求 ， 还 是 1TB 的 多 媒体 数据 ， 只 需要 几 分 钟 的 时 间 来 完成 数据 处 理 。 本 节 将 讲述 计算 机 
的 这 些 重 要 内 容 : 什么 是 数据 ?如 何 产生 、 存 储 和 处 理 数 据 ? 


3.4.1 数据 的 格式 和 表达 


在 2.3 节 我 们 已 经 讨论 了 一 般 的 数字 格式 ， 包 括 和 计算 机 最 相关 的 (无 符号 二 进 制 数 、 补 
码 等 )。 无 论 使 用 的 是 哪 种 格式 ， 数 的 宽度 一 一 由 一 个 数 占 用 的 位 数 一 一 能 够 由 计算 机 体系 结 
构 设 计 人 员 进 行 调整 ， 或 者 增加 所 能 存储 数据 的 最 大 绝对 值 ， 或 者 增加 其 精度 。 通 常情 况 下 ， 





加 “黑匣子 ”通常 用 于 描述 一 个 功能 模块 ， 它 只 根据 该 模块 的 输入 和 输出 给 出 定义 。 它 不 关心 模块 内 部 是 怎样 
的 ， 只 要 给 定 正 确 的 输入 就 能 够 产生 正确 的 输出 。 
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因为 计算 机 是 基于 字 节 的 ， 所 以 数 的 位 宽 是 8 的 倍数 。 

大 多 数 CPU 有 一 个 默认 大 小 的 数据 格式 ， 这 是 由 内 部 总 线 的 宽度 决定 的 ， 例 如， 在 老 的 
6502 处 理 器 上 是 字 节 宽 , 在 ARM 上 是 32 位 宽 。 尽 管 ARM 也 可 以 处 理 字 节 和 16 位 的 半 字 , 但 
它 以 32 位 的 方式 访问 主 存 (假设 以 32 位 的 总 线 连接 内 存 ， 并 且 是 在 ARM 模式 下 而 非 Thumb 
模式 下 进行 操作 ) ， 因 此 处 理 32 位 的 值 并 不 比 处 理 字 节 慢 。 在 ARM 中 ， 寄 存 器 、 内 存单 元 、 
大 多 数 操作 数 等 都 是 32 位 宽 。 

程序 员 通 常 采用 像 C 或 者 Java 这 样 的 高 级 语言 来 处 理 内 存 或 寄存 器 中 的 数据 。 尽 管 某 些 
编程 语言 严格 按照 该 语言 所 提供 的 数据 类 型 来 定义 数据 格式 ， 但 在 C 语言 中 并 非 如 此 ， 只 是 定 
义 一 个 字 节 时 总 是 指 8 位 宽 。 

通常 情况 下 ， 虽然 实际 上 是 由 所 使 用 的 特定 C 编译 器 决定 ， 但 与 整 型 数据 类 型 相 匹 配 的 是 
处 理 器 的 默认 位 宽 ， 即 16 位 宽 或 以 上 。 因 此 , 在 16 位 机 器 上 的 整 型 数 通常 会 是 一 个 16 位 数 ， 
在 32 位 机 器 上 往往 是 32 位 宽 ， 而 在 64 位 机 器 上 往往 是 64 位 宽 。 

程序 员 应 注意 : 如 果 想 编写 可 移植 代码 ， 请 确定 没有 对 整 型 、 短 整 型 数 等 的 确切 大 小 做 出 
任何 假设 。 表 3-1 给 出 了 gce 编译 器 针对 不 同 的 目标 处 理 器 时 几 种 数据 类 型 的 宽度 。 一 些 原 
始 的 C 语言 数据 类 型 的 性 质 的 不 断 变 化 ， 导 致 许多 开发 人 员 采 用 特定 长 度 的 数据 类 型 ， 这 在 
框 3.7 中 给 出 了 进一步 说 明 。 

表 3-1 从 8 位 CPU 到 64 位 CPU， 比 较 其 上 的 C 编程 语言 数据 类 型 的 数据 宽度 。 注 意 不 同 处 理 器 之 间 
哪些 数据 类 型 的 大 小 发 生变 化 ， 而 其 他 保持 不 变 。 对 于 一 个 特定 的 实现 ， 数 据 宽 度 通常 通过 在 
配置 头 文件 types. h 中 定义 最 大 和 最 小 的 具有 代表 性 的 数 来 实现 。 还 要 注意 ， 其 字 节 顺序 在 大 
小 尾 端 处 理 器 上 也 会 不 同 ( 见 2.2 节 ) 











C 语言 数据 类 型 8 位 CPU 16 位 CPU 32 位 CPU 64 位 CPU 

char 8 8 8 8 
byte 8 8 8 8 
short 16 16 16 16 
int 16 16 32 64 
long int 32 32 32 64 
long long int 64 64 64 64 
float 32 32 32 32 
double 64 64 64 64 
long double 由 具体 编译 器 决定 一 一 可 能 是 128、96、80 或 64 位 宽 


有 经 验 的 程序 员 会 知道 ，C 编程 语言 中 的 任何 整数 数据 类 型 ( 即 表 3-1 中 前 6 行 ) 可 以 被 
指定 为 有 符号 或 无 符号 。 默 认 (如 果 没 有 指定 ) 的 数据 类 型 是 有 符号 补 码 。 

long int 和 long long int 也 可 分 别 被 定义 为 long 和 long long。 除 了 最 大 的 机 器 外 ， 在 所 有 机 
器 中 ， 这 两 种 类 型 都 需要 多 个 内 存 位置 进 行 存 储 。 

char 类 型 通常 使 用 7 位 的 有 效 值 ， 遵 守 ASCII 标准 (美国 标准 信息 交换 代码 ) ， 如 表 3-2 所 
示 。 任 何 一 个 最 高 位 被 置 位 的 字符 〈 即 一 个 第 8 位 非 零 的 字符 ) 将 被 看 作 一 个 扩展 的 ASCI 字 
符 (未 在 表 中 列 出 的 ASCI 字符 ) 。 有 趣 的 是 ， 低 于 十 进 制 数 32 (space) 的 字符 和 包括 十 进 制 
数 127 (delete) 的 字符 是 非 打印 字符 ， 具 有 最 初 为 电 传 终 端 所 定义 的 特殊 值 。 例 如 ，ASCII 字 
符 8 ( 即 “\b”) 是 响 铃 字符 ， 输 出 时 将 导致 一 个 “ 哗 ” 声 。 简 单 在 网 上 搜索 一 下 ， 可 以 很 容 
易 地 找到 其 他 特殊 的 ASCII 字符 的 含义 。 





加 ”注意 某 些 编译 器 的 实现 会 有 所 不 同 ， 可 能 不 符合 ISO 或 ANSI C 语言 规范 。 
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表 3-2 7 位 ASCII 表 ， 表 中 列 出 了 字符 (或 非 打印 字符 的 名 称 /标识 符 ) 

以 及 十 进 制 和 十 六 进 制 代码 表示 
Char Dec Hex || Char Dec Hex | Char Hex | Char Dec Hex 
\0 0 0x00 (spc) 32 0x20 @ 0x40 96 0x60 
(soh) 1 0x01 A 
(stx) 2 0x02 B 
(etx) 3 0x03 @ 
(eot) 4 Ox04 D 
(enqg) 和 0x05 E 
(ack) 6 0x06 F 
\a 7 0x07 G 
\b 8 0x08 
\t 9 0x09 
\n 10 0x0a 
(vt) 11 0x0b 
\f 12 0x0c 
Mr 13 0x0d 
(so) 14 0x0e 
(si) 15 OxOf 
(dle) 16 0x10 
(del) 17 Oxl1 
(dc2) 18 0x12 
(dc3) 19 Ox13 
(dc4) 20 Ox14 
(nak) 对 0x15 0x75 
(syn) 22 0x16 118 0x76 
(etb) 23 Ox17 119 0x77 
(can) 24 Oxl8 120 0x78 
(em) 25 Ox19 121 0x79 
(sub) 26 Oxla 122 0x7a 
(esc) 27 0xlb 123 0x7b 
(fs) 28 Oxle 124 0x7c 
(gs) 29 0xld 125 0x7d 
(rs) 30 Oxle 126 0x7e 
(us) 31 Oxlf 127 Ox7f 





当 使 用 计算 机 的 用 户 以 英语 为 母语 时 ，ASCII 码 的 作用 非常 明显 ,但 对 于 使 用 其 他 语言 世 
用 户 则 不 是 特别 有 用 。 因 此 ， 人 们 多 年 来 一 直 付出 巨大 的 努力 希望 可 以 为 其 他 语言 定义 不 同 的 
字符 编码 。 也 许 最 终极 的 挑战 是 汉语 ， 它 拥有 近 13 000 个 象形 字 (独立 符号 ) : 很 明显 用 一 个 
8 位 的 数据 类 型 是 不 可 能 将 汉字 编码 的 。 在 过 去 的 20 年 已 经 出 现 过 许多 解决 方案 ， 其 中 大 部 分 
使 用 两 个 或 两 个 以 上 的 连续 字 节 来 保存 单个 字符 ， 目 前 成 为 事实 标准 的 编码 称 为 Unicode， 这 
种 方式 采用 完全 不 同 的 风格 ， 但 它 可 以 使 用 最 多 4 个 连续 字 节 对 绝 大 多 数 的 字符 编码 ， 其 中 包 
括 汉语 、 日 语 、 韩 语 等 。 
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岁入 式 系统 的 数据 类 型 

虽然 用 C 或 C++ 语言 编写 的 程序 通常 使 用 如 表 3-1 所 示 的 标准 数据 类 型 ， 但 当 移 植 代码 时 还 是 可 能 
会 造成 混乱 。 如 果 程 序 员 对 一 个 特定 数据 类 型 的 大 小 做 了 一 个 隐 含 的 假设 ， 那 么 在 另外 的 处 理 器 上 编译 
时 ， 这 种 假设 可 能 不 再 正确 。 

在 gcc 编译 器 被 广泛 采用 之 前 ， 这 种 情况 实际 上 更 糟 一 一 许多 编译 器 有 自己 的 编译 模式 ， 比 如 “大 
内 存 模式 ”和 “小 内 存 模 式 ”， 这 可 能 会 导致 表示 变量 的 位 宽 不 同 (尽管 gcc 可 以 在 某 些 特殊 的 情况 下 
改变 这 一 点 )。 在 嵌入 式 系统 中 ,其 目标 机 器 可 能 不 同 于 主 汇编 机 ， 因 此 交叉 编译 格外 重要 ， 以 确保 在 
主机 上 测试 过 的 所 有 代码 也 能 够 在 目标 机 器 上 执行 。 

为 了 实现 这 样 的 目标 ， 并 保持 对 不 同 数据 类 型 的 限制 ， 也 许 最 简单 的 方式 是 在 声明 变量 时 直接 指定 
每 个 类 型 的 大 小 。 在 C99 编程 语言 (发布 于 1999 年 的 C 正式 版 ) 中 ， 这 些 已 在 <stdint h > 头 文件 中 为 
我 们 定义 好 了 。 


大 小 有 符号 无 符号 
8 int8 七 uint8 七 


大 小 有 符号 无 符号 
32 七 Mt 和 二 











16 int16 t uint16 七 64 int64 七 Dint64 七 


64 位 的 定义 ( 以 及 其 他 不 常见 的 位 宽 ， 如 24 位 ) 可 能 存在 于 某 个 特定 的 处 理 器 实现 。 当 然 ， 如 果 
它 存在 ， 就 会 占用 给 定 的 位 宽 ， 但 除 此 之 外 这 些 都 是 可 选 的 ， 所 以 对 于 一 些 机 器 ， 编 译 器 将 只 支持 主流 
的 8 位 、16 位 和 32 位 的 定义 。 比 起 那些 写 台 式 机 软件 的 编程 员 ， 嵌 入 式 系 统 的 编码 人 员 往 往 更 多 地 过 到 
这 些 较 安全 的 类 型 声明 。 笔 者 鼓励 谋 入 式 系 统 的 开发 人 员 如 有 可 能 尽量 使 用 指定 宽度 的 数据 类 型 ， 以 避 
免 以 后 可 能 出 现 的 移植 困难 。 

虽然 这 种 编码 系统 的 细节 已 经 超出 了 本 书 的 范围 ， 但 其 影响 还 是 要 提 一 下 : 早期 的 计算 机 
是 字 节 宽 的 ， 自 然 能 够 处 理 字 节 大 小 的 ASCII 字符 。 现 在 ， 它 需要 一 个 32 位 的 机 器 ， 在 一 个 
单一 的 操作 中 处 理 4 字 节 的 Unicode 字符 。 同 样 ， 早 期 的 接口 也 是 基于 字 节 的 ， 如 PC 的 并 行 端 
口 和 串 行 端口 〈 见 第 6 章 ) 。 内 存 访问 也 常常 是 基于 字 节 的 。 有 人 认为 ， 对 于 简单 计数 和 文本 
处 理 来 说 ， 字 节 是 一 个 便于 处 理 的 宽度 。 然 而 ， 这 种 说 法 在 许多 情况 下 不 再 适用 。 对 非 英 文字 
母 的 系统 而 言 ， 一 个 字 节 宽 的 处 理 系 统 只 是 一 个 历史 而 已 。 

有 关 数 据 的 大 小 ， 最 后 一 点 需要 注意 的 是 float 和 double 类 型 的 一 致 性 。 这 种 一 致 性 得 益 于 
IEEE754 标准 的 普及 ， 以 及 事实 上 大 多 数 的 硬件 浮 点 单元 都 符合 标准 (这 一 点 将 在 4.6 节 解 释 ) 。 


3.4.2 数据 流 


仍然 采用 黑匣子 的 观点 ， 一 台 计算 机 需要 输入 、 处 理 ， 并 产生 输出 。 显 然 ， 对 这 些 数 据 的 
实时 性 、 数 量 、 质 量 等 方面 的 要 求 非常 重要 。 

当今 的 计算 机 ， 尤 其 是 许多 消费 类 嵌入 式 电 子 系统 ,大量 是 以 用 户 为 中 心 。 这 意味 着 ， 输 
入 或 者 输出 需要 与 人 交互 。 某 些 数据 也 相当 庞大 (如 视频 、 音 频 等 )。 总 线 宽度 需要 按照 数据 
的 流量 来 确定 (其 中 总 线 我 们 会 在 6. 1 节 更 充分 地 讨论 ) ， 并 且 系 统 也 应 考虑 人 的 需求 。 例 如 ， 
相 较 于 连续 的 错误 (噪声 ) ， 人 类 的 感觉 器 官 往往 对 突然 的 中 断 更 为 敏感 。 通 常情 况 下 ， 当 听 
者 用 CD 播放 机 听 音 乐 时 ， 漏 音 比 听 有 嘲 杂 背景 的 声音 更 加 让 人 恼火 。 对 于 视频 也 一 样 ， 跳 帧 
比 看 稍微 有 噪声 的 画面 更 恼人 。 

大 多 数 重要 的 实时 问题 将 在 6. 4 节 探讨 。 然 而 ,在 这 一 点 上 ， 我 们 需要 强调 的 是 ， 计 算 机 
体系 结构 的 设计 者 应 牢记 ， 他 们 设计 的 系统 将 会 用 在 什么 地 方 。 嵌 入 式 计 算 机 体系 结构 设计 者 
可 能 具有 的 优势 是 ， 他 们 的 系统 更 灵活 、 更 通用 ， 因 而 能 更 好 地 满足 用 户 。 不 幸 的 是 ， 他 们 也 
有 许多 劣势 ， 诸 如 对 系统 规模 、 成 本 和 功 耗 的 限制 更 严格 ， 因 此 需要 更 精细 的 权衡 取舍 设计 。 

从 技术 上 讲 ， 计 算 机 中 数据 流 途经 的 通路 称 为 总 线 。 这 个 数据 可 能 来 自 外 部 设备 或 某 种 形 
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式 的 数据 存储 ， 在 CPU 或 协 处 理 器 上 以 某 种 方式 得 到 处 理 ， 然 后 同样 输出 到 另 一 个 外 部 设备 
或 数据 存储 。 


3. 4.3 数据 存储 


存储 层次 结构 图 3-1 突出 显示 了 在 存储 架构 方面 嵌入 式 系统 和 典型 的 台式 机 /服务 器 系统 
之 间 的 差异 : 除了 NAS ( 网络 附加 存储 ) 设备 等 ， 在 散人 式 系统 中 的 数据 存储 通常 是 基于 内 
存 的， 而 在 台式 机 系统 中 ， 它 往往 存储 在 硬盘 驱动 器 (HDD) 或 固态 驱动 器 (伪装 成 HDD 的 

SSD 闪存 ) 中 ， 用 于 中 期 存储 ,或 存储 在 磁带 /CDROM 或 DVD 中 ,用 于 备份 存储 。 

计算 机 “内 ”的 数据 是 存储 在 RAM、 高 速 缓存 存储 器 、 寄 存 器 等 设备 内 部 的 。 从 程序 员 
的 角度 来 看 ， 它 是 存储 在 寄存 器 或 者 主 存 ( 因为 高 速 缓 存 通 常 对 程序 员 是 不 可 见 的 ) 上 。 数 
据 从 外 部 设备 或 者 硬盘 通过 总 线 ( 见 6. 1 节 ) 进入 内 存 ， 这 些 数据 传输 或 者 按 字 节 或 字 单 次 传 
送 ， 或 者 按照 突 发 模式 ， 或 者 采用 直接 内 存 访 问 方 式 (有 关 DMA 的 内 容 见 6. 1.2 节 ) 。 大 量 数 
据 存储 在 内 存 页 中 ， 由 内 存 管理 单元 ( 见 4.3 节 ) 处 理 ， 少 量 可 能 存在 于 固定 变量 区 或 系统 堆 
栈 中 。 由 于 肉 入 式 系统 通常 使 用 并 行 总 线 连接 闪存 设备 ， 因 此 这 种 系统 中 的 数据 已 经 可 以 被 主 
处 理 咒 直接 访问 ， 从 而 将 这 些 数 据 看 作 已 经 在 计算 机 “内 部 ”。 

数据 从 内 存 调 人 CPU 进行 处 理 ， 同 样 可 能 按 单 次 模式 传输 或 整 块 传输 。 对 于 load-store 机 
右 ( 见 3.2.3 节 )， 待 处 理 的 数据 必须 首先 被 加 载 到 各 个 寄存 器 ， 因 为 所 有 的 处 理 操作 只 从 寄 
存 器 获取 输入 数据 ， 且 只 输出 到 寄存 器 。 有 些 专 用 机 器 (如 向 量 处 理 器 ) 可 以 直接 处 理 数据 
块 ， 有 些 机 器 有 专门 的 协 处 理 单 元 ， 可 以 直接 访问 内 存 ， 而 不 需要 CPU 来 处 理 内 存 数据 的 加 
载 和 存储 。 


3.4.4 内 部 数据 

编译 C 代码 时 ， 由 编译 器 决定 如 何 处 理 程序 变量 。 有 些 变量 (通常 是 最 经 常 访问 的 变 
量 ) ， 当 它们 正在 被 访问 的 时 候 是 放 在 寄存 器 中 的 。 然 而 ， 大 多 数 处 理 器 没有 足够 多 的 寄存 器 ， 
所 以 只 有 极 少 的 变量 会 存放 在 寄存 器 中 。 

在 整个 程序 执行 过 程 中 ， 会 为 全 局 变量 (在 程序 执行 过 程 中 仍然 可 以 访问 的 量 ) 指定 一 
个 专门 的 内 存 地 址 ， 而 其 他 性 质 的 变量 则 存储 在 内 存 堆 栈 中 。 这 意味 着 ， 当 一 个 程序 包含 如 
“index ++ ”这 样 的 声明 时 ， 其 中 index 是 一 个 局 部 变量 ， 编 译 器 认为 其 不 能 保留 在 寄存 器 
中 时 ， 编 译 器 会 为 该 变量 在 堆栈 中 提供 一 个 位 置 。 在 load- store 机 器 上 该 语句 执行 的 伪 代 码 指 
令 如 下 : 

1) 将 特定 堆栈 偏 移 量 中 的 对 应 于 变量 index 的 数据 项 加 载 到 寄存 器 中 。 

2) 将 该 寄存 器 中 存储 的 值 加 1。 

3) 保存 寄存 器 的 内 容 到 刚才 从 中 读 取 数据 的 堆栈 偏 移 位 置 。 

如 果 后 续 有 一 个 对 变量 index 的 判断 (例如 ，if index >100 then ... )， 编 译 器 就 知道 
index 已 经 位 于 某 个 寄存 器 之 中 ， 因 此 在 随后 的 比较 和 判断 中 它 会 重新 使 用 该 寄存 器 。 有 些 变 
量 ， 正 如 我 们 所 提 到 的 ， 在 整个 计算 过 程 中 都 可 以 保留 在 寄存 器 中 。 这 取决 于 有 多 少 寄 存 器 可 
用 、 总 共有 多 少 变量 以 及 对 变量 的 访问 频率 如 何 。 

实际 上 ， 程 序 员 几 乎 无 法 控制 哪些 变量 应 存储 在 寄存 器 中 ， 哪 些 要 保存 在 一 个 堆栈 中 ， 尽 
管 C 编程 语言 中 有 register 关键 字 可 以 要 求 编译 器 尽 可 能 将 变量 保存 在 寄存 器 中 。 例 如 ， 如 

果 我 们 想 保存 index 在 寄存 器 中 (如 果 可 能 ) ,我们 会 如 下 声明 index: 


register int index=0; 


泄漏 代码 (spill code) 得 名 于 少数 机 器 代码 指令 ， 执 行 这 些 指 令 时 编译 器 会 在 程序 中 增加 


CPU 基础 73 





在 存储 器 和 寄存 器 之 间 存 取 变 量 的 操作 。 由 于 内 存 访问 远 远 慢 于 寄存 器 访问 ， 因 此 泄漏 代码 不 
仅 会 轻微 增加 程序 的 大 小 ， 而 且 对 执行 速度 也 有 不 利 影响 。 长 期 以 来 ， 尽量 减少 泄漏 代码 一 直 
是 编译 器 研究 人 员 和 计算 机 体系 结构 设计 者 的 目标 。 


3.4.5 数据 处 理 


两 个 8 位 的 整数 相 加 ， 在 一 个 8 位 处 理 咒 上 通常 是 一 件 简单 的 事 ， 在 32 位 处 理 器 上 执行 
两 个 8 位 整数 相 加 也 相对 比较 简单 “>， 因 为 二 者 的 算术 运算 可 以 用 一 条 单一 的 指令 执行 。 

这 种 单一 的 指令 通常 很 容易 由 硬件 完成 : 从 寄存 器 将 两 个 操作 数 送 给 ALU， 然 后 将 结果 传 
送 回 另 一 个 寄存 器 。 

当 用 一 个 更 小 的 处 理 器 处 理 更 大 的 数 ， 并 且 是 更 复杂 的 处 理 时 ， 情 况 会 变 得 更 有 趣 。 让 我 
们 依次 考虑 三 种 可 能 性 : 操作 数 大 于 处 理 器 的 宽度 、 在 一 个 定点 CPU 上 处 理 浮 点 数 以 及 复数 
的 情况 。 

3.4.5.1 在 小 位 宽 CPU 上 处 理 大 位 宽 数 字 

由 于 C 编程 语言 可 以 定义 32 位 甚至 64 位 的 数据 类 型 ， 因 此 ， 任 何 服务 于 8 位 、16 位 甚至 
32 位 CPU 的 C 编译 器 必须 能 够 支持 比 处 理 器 的 设计 宽度 更 大 的 算术 和 逻辑 运算 。 绝 大 多 数 计 
算 机 语言 都 是 如 此 ， 无 论 是 编译 还 是 解释 。 

首先 请 注意 ， 许 多 处 理 器 具有 指定 的 数据 总 线 宽 度 ， 实 际 上 却 支 持 更 高 精度 的 算术 运算 。 
例如 ， 大 多 数 ARM 处 理 器 能 够 执行 两 个 32 位 数 的 乘法 。 我 们 知道 ， 这 种 操作 的 结果 的 最 大 规 
模 可 能 是 64 位 。ARM 中 原始 的 乘法 器 可 能 只 允许 将 结果 的 低 32 位 存储 到 目标 寄存 器 。 然 而 ， 
在 新 的 ARM 处 理 器 上 , 一 个 “长 乘法 ”指令 允许 将 完整 的 64 位 结果 存储 到 两 个 32 位 的 目标 
寄存 器 中 。 由 此 可 见 ， 存 储 结果 的 操作 将 需要 两 倍 长 的 时 间 来 完成 (但 相 较 使 用 其 他 方法 来 确 
定 高 32 位 ， 这 种 方法 仍 节 省 了 很 多 时 间 ) 。 

我 们 来 看 一 下 在 一 个 没有 “长 ”乘法 指令 的 ARM 处 理 器 上 ， 如 何 执行 64 位 乘法 (请 注 
意 ， 这 未 必 是 完成 这 件 事 的 最 快 方式 ) : 

1) 加 载 操 作 数 1 的 低 16 位 到 R1。 

2) 加 载 操 作 数 1 的 高 16 位 到 R2 。 

3) 加 载 操 作 数 2 的 低 16 位 到 R3 。 

4) 加 载 操作 数 2 的 高 16 位 到 R4。 

5) RO =R1 XR3。 

6) RO =R0 + (R2 XxXR3) <<16。 

7) RO =R0O + (RI1 XxXR4) <<16。 

8) RO =RO + (R2 xR4) <<32。 

在 图 3-13 中 进行 了 解释 说 明 ， 其 中 数据 载 人 被 看 作 设置 阶段 ， 乘 法 和 加 法 运算 作为 操作 
阶段 。 在 操作 阶段 ， 需 要 进行 4 个 乘法 、3 个 移 位 和 3 个 加 法 ， 从 而 得 到 计算 结果 。 

这 里 明确 的 信息 是 ， 缺 乏 一 个 单独 的 “长 ”乘法 指令 意味 着 将 采用 一 些 额 外 的 操作 来 代 
替 ， 并 可 能 用 到 额外 的 寄存 器 。 当 然 ， 也 有 比 这 更 快 或 开销 较 低 的 方法 ， 在 某 些 情况 下 也 可 以 
实现 。 然 而 ， 对 于 通用 乘法 没有 什么 比 使 用 一 个 专 有 指令 更 好 。 

较 长 数据 的 逻辑 运算 很 简单 : 拆 分 操作 数 ， 对 拆 分 后 的 每 一 部 分 分 别 进行 逻辑 运算 ， 然 后 
再 把 结果 重新 拼 在 一 起 即 可 。 这 是 因为 在 二 进 制 字 中 每 一 位 的 逻辑 运算 结果 并 不 影响 其 相 邻 位 
的 运算 结果 。 





加 ”注意 将 8 位 值 放 到 32 位 寄存 器 中 时 需要 先进 行 符号 扩展 〈 见 2.3.8 节 ) ， 和 否则 在 ALU 中 负数 的 补 码 会 产生 
错误 ， 
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图 3-13 本 框图 阐明 了 执行 一 个 32 位 x32 位 =64 位 乘法 ， 其 多 步 又 程序 执行 时 所 需 的 设置 阶段 和 
计算 阶段 ， 所 使 用 的 乘法 器 硬件 只 能 够 返回 32 位 的 结果 ( 即 16 位 x16 位 =32 位 的 硬件 ) 


算术 运算 比 逻 辑 运算 复杂 (但 比 乘法 或 除法 简单 ) 。 算 术 运 算 的 问题 是 溢出 : 两 个 16 位 数 
字 相 加 的 结果 可 能 是 17 位 。 因 此 ， 当 对 拆 分 的 数字 相 加 时 必须 考虑 到 额外 的 位 〈 即 进位 ) 。 通 
常情 况 下 ， 会 先 计 算 低 字 节 部 分 ， 然 后 将 进位 加 到 高 字 节 部 分 的 计算 结果 中 。 

3. 4.5.2 定点 CPU 上 的 浮 点 数 

我 们 已 经 在 2. 8 节 讨 论 了 浮 点 数 ， 并 在 2. 9 节 中 讨论 了 浮 点 数 处 理 。 大 部 分 情况 下 ， 当 我 
们 在 计算 机 体系 结构 中 讨论 “ 浮 点 ”时 ， 指 的 是 符合 正 EE754 标准 的 浮 点 数 。 事 实 上 ， 大 多 
数 硬件 浮 点 单元 也 是 按照 EEE754 标准 实现 的 。 

没有 浮 点 运算 能 力 的 处 理 器 ， 要 么 依赖 于 编译 器 的 支持 ， 把 每 个 C 程序 中 的 浮 点 运算 转化 
为 更 慢 的 定点 运算 子 程序 ， 要 么 编译 成 浮 点 机 器 代码 指令 ， 然 后 由 处 理 器 通过 捕获 (trap) 执 
行 。 这 种 捕获 在 效果 上 表现 为 一 个 中 断 触发 ， 由 收 到 一 个 处 理 器 不 能 处 理 的 指令 而 触发 。 然 后 
由 中 断 服务 程序 负责 执行 特定 的 浮 点 运算 ， 直 到 返回 正常 执行 位 置 ， 中 断 服务 程序 也 是 采用 定 
点 代码 完成 。 这 就 是 所 谓 的 浮 点 仿真 (FPE) ， 我 们 将 在 4. 6. 1 节 进 一 步 研究 。 第 一 种 方法 只 
适用 于 程序 员 知 道 在 编译 的 时 候 FPU 是 否 存在 的 情况 ， 所 以 可 能 不 适合 通用 的 软件 ， 如 在 个 
人 计算 机 上 。 

当 一 个 系统 中 不 包含 硬件 FPU 时 ， 用 FPE (或 编译 器 ) 替代 可 能 不 会 实现 完整 的 IEEE754 
标准 ， 因 为 全 部 实现 将 使 得 速度 相当 缓慢 。 因 此 ， 代 码 最 终 将 可 能 没有 程序 员 预 期 的 那样 准确 
(也 慢 了 很 多 ) 。 
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让 我 们 回 过 头 来 看 2.9. 1 节 和 2.9.2 节 ， 我 们 已 经 讨论 了 浮 点 数 的 加 法 /减法 和 乘法 : 加 
法 /减法 的 过 程 中 需要 一 个 规格 化 的 流程 ， 而 乘法 过 程 中 只 需要 直接 计算 ， 尽 管 包 含 几 个 子 计 
算 。 如 2. 9. 2 节 中 的 简单 乘法 : 

(AxB’°) x (DxB’:) = (AxD) xB''® 

对 于 配 有 FPU 的 机 器 ,，(4xB") 和 (DxB*) 将 是 单独 的 32 位 ( 单 精度 ) 或 64 位 ( 双 
精度 ) 值 。 这 些 值 将 由 CPU 加 载 到 FPU 寄存 器 中 ， 然 后 由 CPU 发 出 以 触发 FPU 单元 执行 乘法 
命令 的 单个 指令 ， 从 目的 FPU 寄存 器 中 将 得 到 运算 结果 。 相 比 之 下 ， 对 于 没有 FPU 的 机 器 ， 
将 需要 几 个 定点 运算 : 

1) 拆 分 尾数 4 和 指数 C， 分 别 存储 在 RI 和 R2 中 。 

2) 拆 分 尾数 D 和 指数 EE， 分别 存 储 在 R3 和 R4 中 。 

3) 计算 新 的 尾数 : R1 x R3。 

4) 计算 新 的 指数 : R2 +R4。 

5) 规格 化 指数 。 

6) 以 IEEE754 格式 重组 并 存储 。 

显然 ， 独 立 的 FPU 指令 (在 具有 FPU 的 计算 机 中 ) 优 于 在 没有 FPU 的 计算 机 中 替换 它 所 
需 的 几 个 定点 操作 。 

3.4.5.3 复数 

复数 ， 经 常用 于 科学 系统 和 无 线 通信 系统 ， 其 形式 为 (e+j.!)， 其 中 j = V -1。 几 乎 所 
有 CPU 都 不 支持 复数 ， 而 且 也 很 少 有 编程 语言 对 复数 有 所 考虑 。 

一 个 硬件 系统 中 的 复数 计算 实际 上 只 是 处 理 实数 ， 就 像 浮 点 数 计算 是 使 用 定点 运算 来 完成 
一 样 ， 会 需要 几 个 步骤 。 考 虑 两 个 复数 的 乘法 和 加 法 运算 : 

(a+j*b):(c+j*d)=(a:c-d.b)+j(a:d+b':ce) 
(a+j*b)+(c+j*d)= (a+c) +j(b +d) 

复数 乘法 需要 4 个 实数 乘法 和 2 个 加 法 。 复 数 的 加 法 稍微 简单 一 些 ， 只 需要 2 个 实数 相 
加 。 这 要 求 程序 员 (或 编译 器 ) 能 够 将 操作 拆 分 成 几 个 简单 的 指令 步骤 。 

硬件 上 支持 复数 运算 的 处 理 器 ， 应 具备 单独 的 指令 才能 够 执行 这 些 操 作 。 而 底层 的 硬件 体 
系 结构 实际 上 需要 执行 所 有 的 拆 分 、 子 操作 及 分 别 进行 乘法 ， 但 是 这 些 在 CPU 内 部 处 理会 非 
常 迅速 ， 无 须 分别 载 和 数据、 存储 和 移动 数据 。 


3.5 自 项 向 下 方法 


3.5.1 计算 机 的 能 力 

纵 观 今天 各 种 不 同 的 处 理 器 ,它们 都 有 各 自 不 同 的 功能 、 时 钟 频率 、 位 宽 以 及 指令 集 等 。 
我 们 的 问题 是 究竟 需要 怎样 的 一 台 计算 机 ? 以 下 将 对 计算 机 的 能 力 进行 探讨 。 

3.5.1.1 功能 

假如 所 有 的 计算 功能 都 可 以 通过 一 串 罗 辑 操作 完成 ， 那 么 为 什么 不 是 所 有 的 功能 都 采用 这 
种 方式 〈 即 可 能 的 一 长 串 逻 辑 操作 ) 来 实现 呢 ? 主要 原因 是 其 与 效率 有 关 一 一 该 功能 需要 多 
长 时 间 完 成 和 需要 什么 样 的 硬件 来 完成 ? 将 计算 机 变 得 简单 从 而 可 以 使 用 更 快 的 时 钟 是 需要 一 





加 “注意 有 一 个 例外 是 FORTRAN 语言 (FORmula TRANslation) ， 它 是 IBM 在 20 世纪 50 年 代 中 期 推出 的 通用 编 
译 语言 。FORTRAN 语言 已 经 更 新 了 几 次 〈 最 新 一 次 是 在 2003 年 ) ， 从 50 多 年 以 前 开始 ， 该 语言 本 身 就 支 
持 复数 数据 类 型 。 在 现代 编程 语言 中 ，Java 和 Python 作为 科学 语言 已 经 在 复数 扩展 上 有 一 些 推广 ， 但 不 幸 
的 是 ， 现 在 它们 两 个 明显 都 比 FORTRAN 的 执行 速度 慢 很 多 。 
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些 折 中 的 ， 这 导致 了 RISC 的 出 现 ， 它 相对 简单 且 时 钟 更 快 ， 但 代价 是 必须 用 多 个 步骤 来 执行 
某 些 功能 ， 而 CISC 则 是 将 多 个 功能 通过 一 条 指令 来 实现 。 

在 确定 如 何 实现 一 个 特定 功能 之 前 考虑 一 下 该 功能 在 软件 中 的 使 用 频率 是 有 实际 意义 的 。 
简单 来 说 ， 如 果 一 个 功能 在 日 常 使 用 时 经 常 被 用 到 ， 则 设置 一 个 专 有 硬件 来 快速 地 处 理 它 也 许 
是 很 有 用 的 。 因 此 ， 在 所 有 现代 的 处 理 器 中 都 含有 ALU， 而 且 几 乎 所 有 处 理 器 也 都 含有 乘法 
单元 。 

不 仅 是 CPU 的 功能 ，CPU 指令 集 的 灵活 性 也 是 CPU 的 一 个 重要 特征 。 例 如 ， 尽 管 省 时 指 
令 (time-saving instruction) 使 用 简单 的 硬件 就 可 以 实现 , 但 并 不 是 所 有 的 设计 都 支持 。 同 样 的 
例子 还 有 ARM 指令 集中 普遍 存在 的 条 件 指 令 ( 见 3.3.1 节 ) 和 一 些 数 字 信和 号 处 理 器 中 的 零 开 
销 循 环 指 令 (zero-overhead loop instruction ， 将 在 5. 6. 1 节 介 绍 )。 

CPU 的 内 部 结构 ， 如 总 线 数量 、 寄 存 器 数量 以 及 它们 的 组 织 ， 也 是 衡量 CPU 性 能 的 一 个 
重要 因素 。 总 体 而 言 ， 更 多 的 总 线 意味 着 有 更 多 的 数据 可 以 同时 传输 ， 由 此 可 以 获得 更 好 的 性 
能 。 类 似 地 ， 更 多 的 寄存 器 可 以 存储 更 多 的 软件 变量 ， 从 而 不 需要 频繁 访问 较 慢 的 内 存 ， 由 此 
又 可 以 改善 CPU 的 性 能 。 

3.5. 1.2 时 钟 频 率 

更 高 的 时 钟 频率 并 不 总 是 意味 着 更 快 的 操作 。 例 如 ， 设 计 一 个 快速 ALU 相对 简单 ， 而 设 
计 一 个 快速 的 乘法 单元 则 难得 多 。 当 比较 两 款 处 理 器 时 ， 单 考虑 时 钟 频率 是 不 能 断定 哪 款 处 理 
器 更 快 的 ， 还 需要 考虑 如 功能 、 总 线 带 宽 、 内 存 速 度 等 因素 ， 实 际 上 ， 应 该 问 在 一 个 时 钟 周 期 
内 可 以 完成 什么 ， 这 个 问题 将 在 下 面 讨 论 。 

3.5.1.3 位 宽 

直到 最 近 ， 用 于 手表 、 计 算 器 等 中 的 绝 大 部 分 CPU 都 采用 了 4 位 处 理 器 ， 而 各 式 用 于 手机 
和 网 络 应 用 的 32 位 处 理 器 (一般 都 是 基于 ARM 的 ) 则 开始 将 重心 移 向 更 高 位 宽 的 处 理 器 。 

虽然 看 上 去 更 高 位 宽 的 处 理 器 会 获得 更 快 的 执行 速度 ， 但 这 仅 是 对 于 所 要 处 理 的 数据 能 够 
使 用 这 么 多 位 的 情况 而 言 的 。 高 端的 服务 器 使 用 了 64 位 甚至 128 位 的 体系 结构 ， 但 是 如 果 用 
于 处 理 文本 (如 7 位 或 8 位 ASCI 或 16 位 Unicode) ， 那 么 更 多 的 位 宽 将 会 被 浪费 。 

335. 1.4 内存 

与 处 理 器 相连 的 内 存 也 是 决定 处 理 速度 的 关键 因素 。 除 了 内 存 的 访问 速度 ,位 宽 (也 指 带 
宽 ， 单位 为 Mbit/s 或 Gbit/s) 和 技术 也 同样 重要 。 其 他 因素 还 包括 突 发 访问 模式 、 分 页 或 分 包 
以 及 单 沿 或 双 沿 时 钟 。 

片上 存储 并 不 都 是 单 周 期 访问 的 ， 而 是 比 片 外 存储 稍 快 一 些 。 给 定 某 一 软件 任务 ， 则 需要 
考虑 需要 提供 多 少 片 上 存储 和 多 少 片 外 存储 。 高 速 缓存 存储 器 (cache) ( 见 4.4 节 ) 就 用 于 最 
大 化 高 速 存 储 ， 而 内 存单 元 的 硬件 复杂 度 通常 也 影响 着 内 存 使 用 的 优化 。 就 内 存 而 言 ， 软 件 的 
写法 和 编译 方法 通常 也 影响 着 硬件 资源 的 利用 效率 。 


3. 5. 2 性 能 衡量 和 统计 

为 了 确定 计算 机 的 执行 速度 ， 最 简单 、 通 用 的 方法 是 测试 其 在 每 秒 能 处 理 多 少 条 指令 。 

MIPS (每 秒 百 万 条 指令 ) 用 于 衡量 指令 和 操作 处 理 的 速度 。 这 是 一 个 有 用 的 低层 次 衡量 ， 
但 它 并 不 真正 反映 计算 机 能 力 : 有 些 操作 本 身 很 简单 ， 因 此 多 个 操作 可 以 用 来 实现 一 个 有 用 的 
任务 。 换 句 话说 ， 一 个 简单 的 拥有 高 MIPS 的 计算 机 (如 RISC 处 理 器 ) 在 处 理 实际 任务 时 ， 
也 许 会 比 一 个 拥有 低 MIPS 但 其 每 条 指令 可 以 完成 多 个 工作 的 计算 机 (如 CISC 处 理 器 ) 要 慢 。 
bogomips 是 在 Linux PC 启动 时 计算 出 来 的 ， 它 是 一 个 著名 的 衡量 软件 MIPS 评分 的 尝试 ,但 并 
不 是 太 精 确 。 
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MIPS 由 时 钟 频率 / (单位 Hz) 和 CPI (每 条 指令 周期 数 ) 决定 : 
MIPS = f/CPI 

一 般 地 ， 对 于 某 一 个 包含 了 条 指令 的 程序 ， 其 完成 时 间 为 : 

Di = (Px CFI 

所 以 CPI 越 低 、f 越 高 或 P 越 少 ( 即 指令 越 少 的 程序 执行 时 间 可 能 会 越 短 )， 则 完成 时 间 
Twae 越 短 。 在 现代 CPU 的 时 钟 频率 都 已 经 提高 时 ， 计 算 机 体系 结构 里 的 已 和 CPI 之 间 的 折 中 
又 让 话题 重新 回 到 RISC 和 CSIC 之 间 的 竞争 上 。 

降低 CPI 是 当代 计算 系统 设计 中 所 要 考虑 的 一 个 方面 。20 世纪 80 年 代 ，CPI 大 于 2， 在 一 
些 CISC 处 理 器 中 可 以 达到 几 百 。 而 RISC 方法 则 降低 了 CPI， 它 的 目标 是 使 CPI 接近 于 1。 
ARM 系列 处 理 器 典型 的 CPI 大 约 为 1. 1， 而 其 他 一 些 处 理 器 的 CPI 会 比 这 个 值 更 低 一 些 。 

之 后 ， 超 标量 体系 结构 的 出 现 使 得 CPI 低 于 1， 这 是 通过 允许 多 条 指令 同时 执行 而 实现 的 。 
5.5. 1 节 中 将 探讨 CEI 和 其 倒数 (IPC) 。 

有 些 时 候 浮 点 性 能 也 是 一 个 重要 的 因素 ， 其 单位 为 MFLOPS (每 秒 百 万 次 浮 点 运算 ) 。 最 
近 ，GFLOPS 也 经 常 被 使 用 ， 它 指 千 MFLOPS， 甚 至 还 有 petaFLOPS (PFLOPS)。 这 些 值 比 
MIPS 更 能 真实 地 反映 计算 机 的 实际 性 能 ， 这 是 因为 我 们 需要 统计 更 有 用 的 计算 操作 数 而 不 是 
低层 次 的 指令 数 。 

标准 检测 程序 (benchmark) 是 很 重要 的 ， 多 家 公司 都 已 经 提供 这 种 产品 〈 框 3. 8 探讨 了 
标准 检测 程序 的 背景 及 其 必要 性 ) 。BDTi 是 标准 检测 程序 的 一 个 例子 ， 用 于 比较 几 个 数字 信和 号 
处 理 器 (DSP) 的 速度 。 其 测量 侧重 于 整体 的 计算 性 能 ， 而 计算 性 能 是 DSP 市 场 的 支柱 。 

而 SPECint 和 SPECfp 标准 检测 程序 直接 计算 整数 和 浮 点 性 能 ， 可 以 通过 向 标准 性 能 评定 组 
织 (Standard Performance Evaluation Corporation ，SPEC) 付费 获得 其 源 代码 格式 ， 并 可 以 在 某 一 
个 体系 结构 上 编译 从 而 获得 其 性 能 评估 。 每 个 测量 都 是 通过 计算 一 系列 算法 并 将 结果 混合 而 获 
得 的 。 一 般 而 言 ， 年 份 代表 了 SPEC 的 版 本 ， 因 此 SPECint92 就 是 SPEC 整数 标准 的 1992 年 
版 本 。 

SPEC 本 身 包含 了 两 个 测试 : Dhrystone 和 Whetstone， 它 们 都 起 源 于 20 世纪 70 年代， 分 别 
用 于 衡量 整数 性 能 和 浮 点 性 能 。 还 有 其 他 一 些 影响 性 能 的 因素 分 别 用 于 衡量 不 同 任务 的 性 能 
(如 图 形 泻 染 、 实 时 性 能 、 字 节 处 理 等 ) 。 

证 瑟 泊 :类 ”基准 性 能 

在 20 世纪 80 年代 中 期 ， 全 世界 计算 机 供应 商 之 间 的 竞争 十 分 激烈 。 这 并 不 是 简单 的 AMD 与 Intel 
之 间 的 赛跑 ， 而 是 涉及 上 千 个 厂家 所 销售 的 各 种 各 样 的 计算 机 一 一 不 同 的 体系 结构 、 不 同 的 内 存 、 几 十 
种 CPU 类 型 、 定 制 的 操作 系统 、8 位 、16 位 甚至 一 些 非 常规 选择 。 

在 英国 ， 如 Sinclair、Acorn、Oric、Amstrad 、Research Machines 、Apricot 、Dragon 、ICL、Ferranti、 
Tandy 、Triumph-Adler 等 公司 在 市 场 上 开始 与 1BM、Apple、Compaq、DEC、Atari、Commdore 等 公司 对 抗 。 
各 种 与 性 能 相关 的 争论 在 广告 和 宣传 小 山上 随处 可 见 。 然 而 ， 由 于 没有 标准 和 基准 ， 这 些 争 论 通常 都 毫 
无 意义 。 

为 此 ， 英 国标 准 协 会 (British Standards Institute，BSI) 为 计算 机 出 台 了 一 个 性 能 标准 ， 它 测试 一 些 
有 用 的 任务 ， 如 整数 计算 、 浮 点 计算 、 跳 转 性 能 和 图 形 性 能 以 及 磁盘 读 写 等 。 然 而 ， 由 于 当时 可 选 的 编 
程 语言 为 BASIC， 所 以 这 个 测试 软件 是 用 BASIC 写 的 。 从 今天 的 观点 来 看 ， 图 形 和 磁盘 读 写 测试 已 经 过 
时 :“ 图 形 ” 测 试 是 测试 将 文本 输出 到 屏幕 上 或 虚拟 显示 单元 (VDU) 所 用 的 时 间 。 这 对 许多 只 对 字 处 
理 感 兴趣 的 用 户 来 说 很 重要 。 而 磁盘 读 写 主要 针对 软盘 〈 比 磁带 快 得 多 ， 当 时 在 一 般 家 用 机 器 上 都 有 配 
备 ) ， 硬 盘 (当时 称 为 温 切 斯 特 驱 动 器 ) 十 分 昂贵 ,当时 一 些 主流 的 计算 机 都 没有 配备 。 而 那 时 程序 更 
多 的 是 存储 在 磁带 上 。 

今天 ,计算 机 杂志 和 网 站 用 于 新 硬件 和 软件 的 测试 都 带 有 电池 测试 ， 它 与 BSI 区 别 很 大 ,但 初衷 都 








是 一 样 的 。 因 此 ,“ 玩 大 型 游戏 时 的 刷新 率 ” 和 “对 100 万 行 随 机 数 进 行 排序 ”等 测试 都 相继 出 现 。 也 
有 其 他 一 些 标准 (一 般 都 不 是 免费 获得 的 )， 但 极 少 采 用 。 相 较 于 多 快 能 计算 到 小数 点 后 100 位 ， 部 
分 用 户 对 玩 游 戏 的 测试 更 感 兴 趣 。 

然而 ， 众 所 周知 ， 为 了 测试 某 一 项 性 能 ， 计 算 机 设计 人 员 会 通过 牺牲 其 他 方面 的 性 能 来 让 
其 设计 在 这 一 项 性 能 上 获得 较 高 的 分 值 。 而 这 种 测试 并 不 能 真正 反映 任务 的 整体 完成 时 间 ， 而 
只 是 某 个 最 简单 的 任务 单独 执行 的 时 间 。 所 以 像 中 断 任 务 ， 操 作 系 统 调用 ， 不同 的 内 存 速度 、 
磁盘 速度 ， 多 任务 执行 以 及 cache 都 会 影响 测试 结果 。 

在 计算 机 里 ，cache 是 提供 给 系统 的 一 块 高 速 存储 区 域 ， 而 系统 上 有 一 块 更 慢 的 主 存 
(cache 通常 在 芯片 上 ， 主 存储 器 通常 位 于 CPU 的 单独 芯片 上 ， 或 者 位 于 通过 总 线 连 接 的 IC 的 
远 端 部 分 ) 。 任 何 程序 在 cache 上 执行 都 比 在 主 存 上 执行 快 得 多 。 在 过 去 ， 有 的 处 理 器 制造 商 
通过 增加 cache 的 大 小 以 装 下 整个 性 能 测试 算法 (如 整个 SPECint 或 Dhrystone 程序 ) ， 如 此 获 
得 了 比 其 他 竞争 者 的 机 器 更 快 的 执行 速度 。 

在 这 个 例子 中 ， 如 果 主 存 的 速度 是 cache 的 1/10， 性 能 的 测试 结果 并 不 会 因此 而 改变 ， 因 
为 整个 测试 程序 都 是 在 cache 上 执行 而 不 是 在 主 存 上 。 显 然 ， 这样 的 一 个 性 能 测试 并 不 能 反映 
真实 情况 。 事 实 上 ， 这 样 的 机 器 会 比 那些 拥有 更 小 cache 和 更 大 主 存 的 机 器 获得 更 快 的 执行 速 
度 ， 在 执行 实际 任务 时 会 更 快 。 

在 给 定 一 些 如 我 们 之 前 所 提 到 的 重要 可 变性 能 因素 的 情况 下 ， 显 然 当前 的 性 能 测试 将 面临 
一 些 困 难 ， 系 统 设 计 人 员 会 由 此 变 得 小 心 辟 履 。 在 实际 中 ， 这 可 能 意味 着 需要 理解 设备 运行 的 
细节 ， 构 建 大 量 的 安全 机 制 ， 或 在 交付 设备 之 前 现场 测试 最 终 代 码 。 虽 然 在 实际 的 工业 生产 里 
极 少 会 出 现 软件 设计 完成 而 硬件 并 没有 完成 的 情况 (通常 软件 是 整个 生产 流程 的 最 后 一 个 部 
分 ) ， 但 如 果 这 种 情况 出 现 ， 那 么 现场 测试 还 是 很 值得 推荐 的 。 


3. 5.3 性 能 评估 


6.4.4 节 将 对 实时 系统 和 多 任务 系统 的 完成 时 间 与 执行 性 能 进行 讨论 ， 而 这 里 我 们 将 讨论 
如 何 进行 性 能 评估 。 为 了 强调 精确 性 能 评估 的 重要 性 ， 这 里 举 一 个 工业 上 的 例子 : 

几 年 以 前 ,一 个 髋 入 式 设计 小 组 需要 一 块 处 理 能 力 为 12MIPS 的 硬件 运行 一 个 算法 。 他 们 选中 了 一 个 
以 40MHz 频率 工作 、 提 供 40MIPS 处 理 能 力 的 32 位 处 理 器 。 为 了 降低 设计 风险 ,设计 人 员 在 把 该 处 理 器 
确定 为 最 终 选择 前 ， 拿 到 了 一 块 开 发 板 ， 在 其 上 装载 了 Dhrystone 测试 程序 并 试图 测试 其 真实 性 能 。 

在 设计 的 过 程 中 ， 他 们 发 现 片上 存储 不 能 满足 软件 的 需要 并 由 此 增加 了 额外 的 DRAM。 由 于 CPU 本 
身体 积 很 小 并 且 引 脚 数 很 少 ， 因 此 将 外 部 存储 总 线 限 制 为 16 位 宽 。 外 部 存储 的 访问 由 此 从 32 位 宽 变 为 
16 位 宽 。 

在 完成 硬件 设计 并 搭建 好 系统 后 ， 他 们 装 上 了 程序 ， 却 发 现在 执行 时 间 上 并 不 满足 需求 ， 哪 一 个 环 
节 出 现 了 错误 呢 ? 

首先 ，Dhrystone 测试 程序 能 完全 存放 在 快速 的 片上 存储 里 ， 并 由 此 可 以 全 速 执 行 ， 而 他 们 的 程序 太 
大 不 能 完全 装 在 片上 存储 里 ， 因 此 需要 存放 在 DRAM 上 。 片 外 DRAM 不 仅 访问 速度 比 片上 存储 慢 ， 而 且 
还 需要 间歇 性 “超时 ”来 更 新 自己 。 在 “超时 ”期 间 , 来自 CPU 的 所 有 访问 都 要 停顿 。 

其 次 ，16 位 的 接口 使 得 对 每 条 32 位 的 指令 需要 进行 两 次 访 存 来 取 指 ， 而 每 个 32 位 的 数据 也 同样 需 
要 两 次 访 存 。 这 就 意味 着 ， 每 当 程序 从 DRAM 上 执行 时 ，CPU 有 一 半 时 间 是 空闲 的 。 在 每 个 奇数 周期 取 
出 指令 的 前 半 部 分 ,在 每 个 偶数 周期 取出 指令 的 后 半 部 分 ， 然 后 才能 处 理 它 。 

16 位 接口 导致 执行 速度 从 40MIPS 降 为 20MIPS， 而 DRAM 的 慢 速 访问 和 更 新 时 间 将 20MIPS 性 能 进 
一 步 降 低 至 9MIPS 左右 。 

解决 这 个 问题 的 方案 也 并 不 令 人 满意 : 更 换 为 具有 更 快速 度 但 费用 为 原来 20 倍 的 片 外 存储 
(SRAM) ,或 是 将 CPU 升级 为 具有 更 快 的 处 理 速 度 或 拥有 更 宽 的 外 存 访问 接口 ， 或 两 者 皆 具 。 但 设计 人 
员 并 没有 采用 任何 一 种 方法 ， 而 是 在 其 旁边 增加 了 一 块 CPU 来 处 理 部 分 任务 。 
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这 个 例子 强调 了 性 能 需求 与 硬件 相 匹 配 的 必要 性 。 总 体 而 言 ， 目 前 有 两 种 方法 来 实现 性 能 
测试 。 第 一 种 是 通过 对 体系 结构 清晰 地 理解 ， 第 二 种 是 通过 细致 地 评估 体系 结构 。 对 于 这 两 种 
方法 ,体系 结构 不 仅仅 指 处 理 器 ， 还 包括 其 他 重要 的 外 设 。 

清晰 地 理解 软件 需求 意味 着 需要 确定 系统 上 运行 的 软件 ,分 析 软 件 的 具体 要 求 (特别 是 瓶 
颈 ) ， 然 后 根据 分 析 的 结果 找到 匹配 的 硬件 。 在 最 基本 的 层次 上 ， 这 意味 着 当 大 部 分 计算 为 浮 
点 计算 时 ， 需 要 避免 使 用 仅 支 持 整数 的 CPU。 

这 种 方法 通常 为 DSP 系统 设计 所 采用 ， 其 评估 内 容 包括 内 存 传输 、 使 得 对 变量 能 够 同时 进 
行 访问 的 不 同 的 内 存 区 域 布局 (4.1.4 节 )、 输 入 和 输出 瓶颈 ， 以 及 对 于 这 类 处 理 器 最 重要 的 
算术 运算 等 。 除 了 整体 程序 存储 容量 需求 之 外 ， 慢 速 机 构 、 用 户 接口 以 及 控制 代码 在 这 种 计算 
中 都 会 被 忽略 。 

在 此 有 必要 指出 ， 大 部 分 的 软件 开发 完 之 后 所 需 的 初始 程序 内 存 空 间 比 估计 的 要 大 。 良 好 
的 编码 能 够 降低 数据 内 存 的 使 用 ,减少 处 理 时 对 内 存 的 需求 ,但 无 法 节省 太 多 程序 占用 内 存 的 
空间 。 与 台式 计算 机 设计 人 员 不 同 ， 嵌 入 式 设计 人 员 不 能 提供 RAM 扩展 : 这 往往 是 在 设计 时 
就 已 经 定好 的 。 由 此 ， 给 内 存 足够 的 元 余 是 明智 之 举 。 

上 面 提 到 的 第 二 种 使 所 需 性 能 与 硬件 匹配 的 方法 是 细致 地 评估 。 使 用 这 种 方法 时 不 需要 了 
解体 系 结构 的 细节 ， 但 是 需要 了 解 每 个 层次 测试 的 细节 。 理 想 情 况 下 ， 最 终 运 行 的 软件 需要 在 
候选 硬件 上 执行 以 便 对 它 需 要 消耗 多 少 CPU 时 间 进 行 评 估 。 对 其 他 的 任务 也 需要 进行 测试 ， 
以 确定 这 些 任务 在 硬件 上 执行 是 否 有 处 理 时 间 宛 余 。 软 件 分 析 工 具 (如 GNU gprof) 将 指出 运 
行 代码 的 瓶颈 ， 找 出 软件 的 哪些 部 分 需要 耗费 大 量 CPU 时 间 。 

多 次 运行 每 一 个 测试 很 有 必要 (但 如 果 对 时 序 要 求 严格 时 不 能 取 结 果 的 平均 值 ， 则 应 采用 
最 坏 的 结果 ) ， 测 试 时 可 以 大 幅度 增加 软件 大 小 以 使 其 超出 cache 或 片上 存储 的 承载 能 力 ， 如 
果 可 以 ,还 应 允许 最 终 系统 上 的 任何 中 断 和 辅助 任务 。 

如 果 目 标 软件 在 其 他 机 器 上 已 经 运行 过 ， 可 以 将 其 在 不 同 机 器 上 的 执行 进行 比较 一 一 但 必 
须 同 时 考虑 在 前 面 两 章 里 所 讨论 的 所 有 重要 的 体系 结构 因素 。 在 这 种 情况 下 ， 在 两 台 机 器 上 编 
译 和 比较 标准 检测 程序 会 有 所 帮助 (假设 所 选 的 标准 检测 程序 与 日 标 软件 相关 ) 。 

当前 全 世界 范围 有 很 多 设计 人 员 错 误 地 评估 处 理 器 性 能 和 内 存 需 求 的 例子 (其 中 包括 
1999 年 作者 给 亚洲 某 制 造 商 所 做 的 设计 : 设计 一 个 便携 式 MP3 播放 器 ， 由 于 没有 预料 到 它 的 
内 存 总 线 带宽 很 低 ， 因 此 它 每 次 只 能 重 放 7s 的 MP3 音频 。 还 好 它 后 来 采用 了 更 快速 的 处 
理 器 ) 。 

请 注意 ， 要 时 刻 警 惕 性 能 测试 评估 的 陷阱 。 尤 其 重要 的 是 ， 要 记得 阅读 手册 中 性 能 声明 下 
的 附属 条 件 。 


3.6 小 结 


本 章 的 讨论 覆盖 了 微 处 理 器 基础 内 容 ， 从 CPU 的 功能 到 CPU 对 程序 的 控制 ， 最 后 到 程序 
的 传输 和 存储 。 

控制 单元 需要 保证 处 理 器 按 规则 执行 ， 管 理 操作 和 异常 ， 并 能 在 计算 机 程序 的 引导 下 接受 
一 系列 指令 。 控 制 单元 可 以 是 集中 式 的 ,或 根据 状态 机 的 时 序 为 分 布 式 、 微 指令 引擎 ， 或 采用 
自 定时 逻辑 。 

程序 中 每 条 指令 都 是 所 允许 指令 集中 的 一 部 分 (取决 于 你 的 观点 ) ， 它 描述 了 处 理 器 能 执 
行 的 操作 ， 或 指定 处 理 器 的 行为 ， 这 些 行为 包括 通过 内 部 总 线 将 数据 传输 到 不 同 的 功能 单元 。 
通过 上 一 章 和 本 章 对 CPU 设计 基础 的 铺垫 ， 我 们 将 在 第 4 章 对 目前 主流 CPU 的 内 部 布局 和 功 
能 单元 进行 深入 探讨 ， 并 尝试 把 编程 人 员 的 经 历 融 入 其 中 。 
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思考 题 


1 


3.2 


3.3 


3.4 


3.5 


3.6 
7 


3.8 


如 果 汇 编 指 令 LSL 表示 “逻辑 左 移 " ，LSR 表示 “ 边 辑 右 移 ”，ASL 表示 “算术 左 移 " ，ASR 表示 
“算术 右 移 ”， 那 么 对 以 下 的 有 符号 16 位 数字 操作 后 的 结果 是 什么 ? 

3a。0x00CR ASR 1 
b. ox0101 LSR 12 
€. OXFFOF LSL 2 
d. OxFFOF LSR 2 
€. OXFFOF ASR 3 
f. OxFFOF ASL 3 


对 一 个 RISC 处 理 器 的 典型 代码 (只 包含 8 种 指令 ) 进行 分 析 后 得 到 以 下 这 些 指 令 的 出 现 次 数 
统计 : 














a. 如 果 每 条 指令 (不 包括 操作 数 ) 为 6 位 长 ,那么 这 个 程序 将 占据 多 少 位 内 存 空间 ? 
b. 使 用 以 上 信息 对 这 些 指令 设计 霍 夫 曼 编码 。 
计算 对 指令 集 采用 霍 夫 曼 编码 后 的 程序 需要 占据 多 少 内 存 空 间 。 

给 出 执行 以 下 逆 波兰 表示 法 (RPN) 操作 时 堆栈 的 PUSH 和 POP 队列， 并 将 每 条 RPN 转换 成 中 组 
表达 式 : 
a. Qb 十 
b. cb +c X 
c. ab xcdsin + 一 
考虑 执行 以 上 操作 所 需 的 最 大 堆栈 容量 。 
ROT (rotate) 指令 与 移 位 指令 相似 ， 只 是 它 要 回 绕 一 一 当 向 右 移 位 时 ， 从 字 的 LSB 端 出 来 的 每 一 
位 成 为 新 的 MSB; 当 向 左 移 位 时 ， 从 该 字 的 MSB 出 来 的 每 一 位 成 为 新 的 LSB。 

ROT 的 参数 为 正 时 进行 左 移 ， 为 负 时 进行 右 移 。 

假如 一 台 计 算 机 只 有 ROT 指令 而 没有 移 位 指令 ， 如 何 进 行 算 术 运 算 和 逻辑 位 移 操作 ? 
将 以 下 中 绥 表 达 式 转换 为 RPN: 
a (AandB) orC 
b. (A and B) or (C and D) 
c. ( (AorB) andC)+D 
dC+ipow (A, B) xD| 
e. 能 否 使 用 3 种 方法 对 下 式 进行 转换 : |C+pow (A, B)| xD 
分 别 计算 上 题 e 中 3 种 方法 所 需 的 堆栈 深度 。 
将 下 列 RPN 转换 为 中 级 表达 式 : 
a. AB+C+Dx 
b. ABCDE + xx 一 
c. DC not and BA ++ 
使 用 条 件 指令 ADDS 重 写 下 列 ARM 汇编 代码 ， 移 除 所 有 跳 转 指令 。 
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ADDS RO, R1, R3 
BGE step2 
ADD R2, R1, R6 
BLT step3 
step2 ADD R2, R3, R6 
step3 NOP 

3.9 ”使 用 ARM 汇编 语言 时 ， 确 定 进行 以 下 立即 数 加 载 时 所 需 的 最 少 指令 数 (提示: 使 用 MOV 和 MVN 
指令 ): 

a， 加载 0x12340001 至 寄存 器 RO 
b. 加 载 0x00000700 至 寄存 器 R1 
c， 加 载 0xFFFFOFF0 至 寄存 器 R2 

3.10 写 出 在 一 个 RISC 处 理 器 上 将 两 个 内 存 地 址 ml 和 m2 上 的 内 容 进行 相 加 后 再 将 结果 保存 到 地 址 m3 
上 的 操作 序列 。 

3.11 科学 家 发 现 了 新 的 内 存单 元 硅 片 ， 半 导体 工程 师 将 这 种 硅 片 设计 成 新 的 存储 芯片 。 指 出 计算 机 体 
系 结构 设计 人 员 需 要 考虑 的 6 个 因素 ， 以 决定 是 否 将 这 种 新 技术 应 用 在 符 入 式 视频 播放 器 的 主 存 
储 器 上 。 

3.12 指出 下 列 指令 是 来 自 RISC 还 是 CISC 处 理 器 。 

a. MPX: 将 内 存 两 个 地 址 上 的 内 容 相 乘 ， 然 后 将 结果 加 到 累加 器 上 。 

b.， BcDD: 将 两 个 寄存 器 里 的 内 容 进行 BCD 码 的 相 除 ， 结 果 使 用 科学 计数 法 表示 ,并 以 ASCII 的 
形式 存放 在 内 存 块 中 ， 为 在 显示 器 上 显示 做 好 准备 。 

c.， SUB: 对 两 个 操作 数 进行 相 减 ， 结 果 作 为 第 三 个 操作 数 。 操 作 数 和 结果 都 为 寄存 器 的 内 容 。 

d. LDIV Rc,Ra,Rb: 执行 100 个 时 钟 周期 的 长 除法 : Ra/Rb， 将 结果 放 在 寄存 器 Re 中 。 

3.13 写 一 个 微 指令 程序 来 实现 上 题 中 任意 的 两 个 指令 ,假设 是 在 一 个 RISC 体系 结构 上 执行 。 

3.14 什么 是 加 载 存 储 (load-store) 体系 结构 ?为 什么 计算 机 设计 者 会 采用 这 种 方法 ? 

3.15 在 一 个 简单 的 流水 线 上 ， 指 令 取 指 阶段 之 后 跟着 什么 处 理 ? 

3.16 假设 有 一 个 32 位 处 理 器 ， 甚 指令 以 十 六 进 制 机 器 码 的 形式 存储 。 在 内 存 位 置 0x9876 上 存储 字 
0x1234， 其 指令 如 下 : 


Ox0OF00 1234 088D 9876 


观察 该 指令 机 器 码 ， 确 定 这 个 处 理 器 是 否 支 持 绝对 寻 址 。 解 释 你 的 答案 。 

3.17 假设 另外 有 一 个 8 位 处 理 器 ， 拥 有 8 个 寄存 器 。 问 这 个 处 理 器 的 指令 是 否 能 够 支持 两 个 寄存 器 操 
作 数 和 一 个 结果 寄存 器 操作 数 ? 

3.18 假设 以 下 指令 为 ARM 汇编 语言 (对 ARM 处 理 器 不 是 必需 的 ) ， 指 出 以 下 指令 的 寻 址 方式 : 


a. MOV R8, #0x128 


b 
C. STR R12, [RI) 

d. AND R4, R5, R4 

€. LDR R6, [R3, RO, LSL #2] 
f. LDR R2, [R1, RO, #8] 

g. STR R6, [R3, RO] 


3.19 哪 种 处 理 器 处 理 32 位 浮 点 数据 会 更 快 : 900MHz 的 32 位 浮 点 CPU 或 2GHz 的 16 位 整数 CPU? 
3.20 ”对 不 同 处 理 器 写 C 程序 时 ，byte 是 否 总 是 表示 为 8 位 ? short 和 int 类 型 呢 ? 它们 的 大 小 为 多 少 ? 是 
否 总 是 相同 ? 
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在 第 2 章 中 ,我 们 已 经 讲述 了 由 计算 机 提供 的 大 部 分 数值 计算 ， 也 对 计算 机 的 功能 单元 给 
出 了 定义 并 对 计算 机 一 些 内 部 连接 结构 进行 了 分 类 。 在 第 3 章 中 ， 前 面 提 及 的 这 些 结构 又 组 合 
成 一 个 有 着 不 同 功 能 的 完整 结构 ， 用 来 执行 由 程序 员 编 写 的 指令 序列 。 因 此 ， 我 们 知道 计算 
机 ， 特 别 是 CPU， 可 以 在 逻辑 上 分 为 多 个 用 来 执行 不 同 任务 的 功能 单元 。 

这 一 章 ， 我 们 进一步 给 出 CPU 内 部 组 成 的 高 级 描述 ， 并 且 集 中 讨论 当今 处 理 器 中 常见 的 
最 大 、 最 显著 、 最 重要 的 内 部 单元 。 我 们 将 更 细致 地 探讨 这 些 单 元 执行 什么 样 的 任务 以 及 它们 
如 何 执行 这 些 任务 。 这 些 讨论 主要 覆盖 算术 逻辑 运算 单元 (ALU) 、 浮 点 运算 单元 (FPU) 、 内 
存 管理 单元 (MMU) 以 及 高 速 缓冲 存储 系统 单元 。 在 开始 讨论 上 述 问题 之 前 ， 我 们 将 首先 考 
虑 这 些 单元 是 如 何 通过 总 线 连接 起 来 的 。 

是 时 候 去 接触 真正 的 体系 结构 ， 特 别 是 CPU 内 各 个 单元 的 内 部 互联 总 线 结构 了 。 


4. 1 内 部 总 线 结构 


4. 1.1 程序 员 的 角度 


从 程序 员 的 角度 出 发 ， 一 个 处 理 器 的 内 部 总 线 结构 可 以 从 两 个 相互 联系 的 方面 来 看 。 第 
一 ， 使 用 寄存 器 时 的 灵活 性 。 显 然 在 可 用 的 寄存 器 集合 中 ， 这 些 寄 存 器 可 以 在 一 条 特殊 指令 中 
直接 作为 操作 数 。 以 ARM 为 例 ， 寄 存 器 操作 数 是 允许 的 ， 任 何 寄存 器 组 中 的 寄存 器 可 以 进行 
如 下 操作 : 


ADD RO, R1, R2 ;RO=R1+R2 


可 以 使 用 任何 寄存 器 ， 甚 至 可 以 使 用 相同 的 寄存 器 : 


RDD RO, RO, RO ;RO= RO+RO 


很 多 处理 器 没有 这 样 的 灵活 性 或 者 灵活 性 稍 差 。 第 二 ， 在 一 条 指令 周期 中 能 够 做 多 少 工作 
也 是 程序 员 所 关注 的 ， 这 个 问题 一 般 都 隐 含 在 指令 集 自 身 当 中 。 再 以 ARM 为 例 ， 对 于 其 任何 
算术 或 者 逻辑 指令 ， 必 然 有 最 多 两 个 输入 操作 数 寄存 器 和 一 个 结果 操作 数 寄 存 带 : 


ADD RO, R1, R2 ;RO=R1+R2 


关于 寄存 器 和 ALU 之 间 的 数据 传输 方法 : 如 果 传 人 
和 传 出 都 在 一 个 周期 内 完成 ， 则 意味 着 输入 和 输出 都 有 
着 各 自 的 总 线 〈 因 为 在 任何 时 刻 只 能 有 一 个 操作 数 在 一 
条 总 线 上 传输 ) 。 一 条 总 线 传输 Rl 的 内 容 ， 另 一 条 则 传 
输 R2 的 内 容 ， 还 有 一 条 用 来 将 结果 从 ALU 写 回 寄存 
器 RO。 

从 以 上 内 容 可 以 发 现 ， 每 个 寄存 器 都 与 一 条 属于 自 
己 的 总 线 相连 ， 因 此 这 至 少 需 要 3 条 内 部 总 线 。 

关于 寄存 器 和 ALU 的 排列 我 们 可 以 从 对 图 4-1 所 示 图 4-1 一 个 ALU 与 一 个 寄存 器 组 
的 指令 集 的 简单 分 析 中 归纳 出 来 。 这 实际 上 是 对 ARM 处 通过 一 个 三 路 总 线 相连 
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理 器 内 部 互联 结构 的 简单 原理 阐述 。 其 中 箭头 指示 着 可 控 的 三 态 缓冲 器 ， 三 态 缓冲 器 作为 门 来 
控制 寄存 器 和 总 线 之 间 的 读 写 操作 。 此 处 没有 给 出 控制 逻辑 (在 3. 2. 4 节 中 已 经 讲 过 ) 。 


4. 1.2 分 解 互联 排列 


ARM 之 所 以 如 此 著名 ， 是 因为 它 的 规整 性 和 简洁 性 。 其 他 的 一 些 处 理 器 对 底层 程序 员 来 
说 不 是 特别 友好 ， 而 ARM 由 于 是 由 16 个 完全 相同 的 寄存 器 以 完全 相同 的 方式 连接 而 成 的 寄存 
器 组 , “因此 往往 可 以 赋予 寄存 器 集合 以 特殊 的 用 途 。 对 这 些 寄存 器 集合 最 常见 的 排列 就 是 分 派 
几 个 寄存 器 成 为 专用 的 存储 和 处 理 地 址 的 地 址 寄存 器 ， 而 其 他 的 为 数据 寄存 器 。 设 计 一 个 只 用 来 
连接 这 些 地 址 寄存 器 的 内 部 地 址 总 线 ， 是 一 种 容易 想到 的 分 解 方法 。 在 ARM 中 ， 每 个 寄存 器 都 
可 以 存放 地 址 (因为 可 以 直接 寻 址 ， 详 见 3.3.4 节 ) ， 每 个 寄存 器 也 必须 和 内 部 地 址 总 线 相连 。 

在 一 些 处 理 器 中 ， 比 如 ADSP21xx， 并 没有 寄存 器 组 ， 取 而 代 之 的 是 每 一 个 处 理 单 元 都 有 
附带 的 输入 输出 专用 寄存 器 。 这 意味 着 当 在 这 些 处 理 器 上 运行 一 条 特殊 指令 时 ， 底 层 程序 员 必 
须 记 住 (或 者 查询 程序 手册 ) 哪个 寄存 器 是 允许 使 用 的 。 有 时 候 为 了 执行 某 个 功能 ， 不 得 不 
浪费 一 条 指令 来 将 一 个 寄存 器 中 的 值 传 到 男 外 一 个 寄存 器 ， 尽 管 好 的 指令 集 设计 可 以 尽量 减少 
这 些 无 效率 的 操作 。 目 前 ， 通 用 处 理 器 已 经 很 少 使 用 这 类 体系 结构 ， 但 是 依旧 可 以 在 数字 信和 号 
处 理 器 中 找到 类 似 的 结构 ， 比 如 ADSP21xx “系列 处 理 器 。 

为 什么 设计 者 要 自 找 麻烦 设计 如 此 复杂 的 
指令 集 呢 ? 要 知道 这 个 问题 的 答案 ， 需 要 我 们 
对 处 理 器 所 要 完成 的 一 些 功能 做 个 快速 扫 视 。 
在 这 个 例子 中 ,我 们 可 以 观察 到 ARM 是 使 用 如 
图 4-2 所 示 的 硬件 来 完成 以 下 功能 的 : 


MUL RO, R1, R2 ;RO=R]1 十 R2 
ADD R4, R5, R6 ;R4=R5++ R6 


图 4-2 显示 了 数据 从 R1 和 R2 同时 输出 到 两 
条 操作 数 总 线 上 (用 深 色 线 标 出 )， 然 后 进入 乘 
累加 单元 ( MAC ) ， 再 将 结果 通过 结果 总 线 送 图 4-2 一 个 ALU、 一 个 MAC 以 及 一 组 寄存 


回 RO。 器 以 三 路 总 线 相互 连接 的 排列 原理 
在 这 张 图 里 值得 注意 的 是 ，R3 以 前 的 寄存 示意 图 。 本 图 着 重 展 示 该 结构 能 同 
| 本 A 时 传送 两 个 操作 数 到 一 个 功能 单元 
器 以 及 ALU 都 处 于 闲置 状态 。 当 CPU 设计 者 看 0 


到 有 资源 闲置 时 ， 他 们 会 尝试 着 尽 可 能 将 这 些 
闲置 资源 利用 起 来 ， 比 如 ， 可 和 否 有 一 种 方法 能 够 将 ALU 和 MAC 同时 利用 起 来 。 这 个 问题 的 答 
案 是 如 图 4-3 所 示 的 划分 设计 。 

如 图 4-3 中 的 排列 所 示 ，MAC 和 ALU 都 有 各 自 的 输入 和 结果 总 线 ， 通 过 扩展 ， 它 们 也 有 
各 自 优 先 使 用 的 寄存 器 集合 。 这 样 ， 只 要 程序 员 记 住 了 在 调用 MAC 时 使 用 RO ~ R3 ， 以 及 在 调 
用 ALU 时 使 用 R4 ~ R7 就 可 以 了 ， 这 样 示 例 指令 : 


MUL RO, R1, R2 ;RO0O=R]1+ R2 
ADD R4, R5, R6 ;了 R4=R5 十 R6 


就 可 以 在 一 个 周期 内 完成 。 


加 实际 上 ， 寄存器 R14 和 R15 分 别 是 链接 寄存 器 和 程序 指针 寄存 器 (程序 计数 器 )。 单 从 指令 集 分 析 很 难看 
到 这 个 特征 。 男 外 ， 寄 存 器 功能 还 会 因 它们 的 影子 (shadowing) 安排 的 不 同 而 有 所 变化 。 

加 “xx” 是 指 在 ADSP21 系列 产品 中 有 不 同 的 产品 系列 号 ， 这 一 系列 产品 具有 同样 的 特点 ， 如 ADSP2181、 
ADSP2191 等 。 
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这 个 过 程 也 许 是 受 ADSP21xx 设计 的 影响 ， 使 得 设计 者 尽 可 能 地 去 追逐 处 理 器 的 性 能 提升 。 
4.1.3 ADSP21xx 总 线 排列 


月 二 一 
在 ADSP21xx 的 硬件 中 ， 每 个 处 理 单元 都 是 全 | 
有 限制 的 ， 它 们 只 能 从 一 小 部 分 寄存 器 中 读 人 fH 
数据 ， 也 只 能 将 结果 写 回 一 小 部 分 寄存 器 中 。 而 加 总 线 连接 单元 
这 意味 着 在 这 个 处 理 器 中 有 很 多 内 部 总 线 和 操 和 
作 可 以 以 并 行 的 方式 快速 执行 。 

图 4-4 简单 地 描述 了 ADSP21xx 众多 内 部 总 7 | 
线 的 一 部 分 。 在 该 图 中 ，PMA 代表 了 程序 存储 的 
器 的 地 址 ，DMA 是 数据 存储 器 的 地 址 。 这 两 个 
地 址 总 线 都 与 程序 存储 器 和 数据 存储 器 相连 ， 。 图 4-3 一 个 ALU、 一 个 MAC 以 及 一 组 寄存 


六 也 六 明 该 处 理 本 采取 了 隆重 体系 结构 【《 员 器 以 三 路 总 线 相互 连接 的 排列 原理 
这 也 说 明 该 处 理 器 采取 了 哈佛 体系 结构 ( 见 Ee 







2.1.2 节 )。 然 而 ， 从 其 对 地 址 空间 的 划分 来 讲 ， 方式 类 似 ， 不 过 这 里 由 于 使 用 了 总 
它 比 基本 的 哈佛 体系 结构 又 更 深入 了 一 步 。 线 划 分 ， 从 而 允许 两 个 功能 单元 同 
PMD 和 DMD 分 别 代 表 了 程序 和 数据 内 存 总 线 。 时 向 (从 ) 总 线 传送 数据 


注意 总 线 的 大 小 ，ADSP 不 仅 在 内 部 总 线 互联 上 
比较 复杂 ， 而 且 其 总 线 宽 度 也 各 不 相同 。 

DMA[0:13] 
PMA[I0:13] 


本 ============mmmm 
中 . 
. 















PMDIO:23] 
DMD[O:15] 


图 4-4 ADSP 内 部 总 线 排列 示意 图 


图 4-4 显示 了 ALU 和 MAC (不 包括 移 位 器 ) 可 以 从 PMD 总 线 上 接受 24 位 的 输入 ， 还 可 
以 从 16 位 的 DMD 总 线 上 接受 输入 ， 同 时 也 可 以 对 其 进行 输出 。 


4. 1.4 数据 与 程序 同时 访 存 


在 诸如 数字 信和 号 处 理 (DSP) 领域 中 ， 有 一 个 重要 问题 就 是 外 部 数据 可 以 以 多 快 的 速度 进 
和 人 处 理 器 ， 然 后 得 到 处 理 并 最 终 和 输出。 数字 信和 号 处 理 器 一 般 都 是 对 一 些 流 数据 进行 操作 ， 比 如 
高 保 真 的 音频 信和 号 或 者 无 线 宽 带 信号 。 

数字 信号 处 理 操 作 往 往 是 某 些 形式 的 数字 滤波 。 可 以 考虑 一 段 时 间 内 的 信号 采样 ， 如 
x[0] ,zx[1]，x[2] 等 , 分别 表 示 时 刻 0 (当前 时 刻 ) 的 采样 、 前 一 个 时 刻 的 采样 、 前 两 个 时 
刻 的 采样 ， 依 次 类 推 。y[0]，y[1] ,，yL2] 是 根据 这 些 时 刻 采 样 而 输出 的 结果 值 。 如 果 这 些 信 
号 为 音频 数据 ,那么 x 和 y 应 该 是 音频 信号 采样 ， 可 以 是 16 位， 如果 我 们 以 48kHz 的 频率 进行 
采样 ， 则 上 面 所 说 的 时 间 间 隔 为 1/48 000 =21hs。 

我 们 不 去 深究 数字 信号 处 理 的 原理 ， 在 这 里 仅 简 单 介 绍 两 个 通用 的 滤波 公式 : 有 限 冲 激 响 
应 (FIR) 滤波 和 无 限 冲 激 响应 (IIR) 滤波 。FIR 的 输出 是 将 前 n 个 采样 与 一 些 预 设 好 的 值 相 
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乘 后 全 部 累加 到 一 起 所 得 到 的 ， 可 以 写成 如 下 数学 形式 : 
可 之 < x x[i] 

所 以 ， 当 前 的 输出 yL0] 是 由 前 个 输入 数据 分 别 乘 以 滤波 系数 al] ， 然 后 全 部 累加 在 一 起 
所 得 到 的 。 输 入 数据 的 个 数 决定 了 滤波 器 的 阶 数 。 一 个 10 阶 的 滤波 器 应 该 预先 定义 n=10 并 且 提 
前 设 定 好 10 个 滤波 系数 ac[] 。 一 个 自 适应 的 FIR 滤波 器 可 以 让 滤波 系数 随 着 时 间 的 变化 而 变化 。 

相 度 。JR 溢 流 各 的 输出 结果 依 秽 于 之 前 所 有 的 输入 和 和 输出。 其 数学 形式 可 以 写成 。 


obi = Ye % 开 和 4 oi 这 对 洋 


这 个 公式 包含 了 一 个 更 加 高 级 的 滤波 系数 6[] 。IIR 滤波 器 同样 是 自 适应 的 ， 并 且 一 般 可 
以 完成 和 FIR 滤波 器 一 样 的 工作 ,但 是 在 阶 数 较 低 的 情况 下 (n 值 较 小 ) ， 这 种 强大 的 滤波 计 
算 需 要 付出 一 定 的 代价 ，IIR 滤波 器 也 有 可 能 变 得 不 稳定 。 

设计 一 个 高 性 能 数字 信号 处 理 器 的 关键 在 于 尽快 地 完成 这 些 公 式 ， 也 就 是 在 尽 可 能 少 的 时 
钟 周期 内 计算 y[0] 的 值 。 回 过 头 来 查看 FIR 滤波 器 公式 ， 我 们 可 以 看 出 这 种 类 型 的 计算 基本 
上 都 是 在 重复 以 下 的 底层 操作 : 


ACC:= ACC + (a[li] x x[4])) 


将 两 个 值 相 乘 并 加 上 某 个 已 存在 的 值 称 为 乘 累 加 
(multiply-accumulate) ， 它 需要 使 用 一 个 累加 器 ， 通 常 
简写 为 ACC。 

现在 我 们 需要 将 这 个 功能 与 数字 信号 处 理 器 的 便 
件 联系 起 来 ， 这 里 有 很 多 巧妙 的 设计 可 以 讨论 ， 但 最 
重要 的 一 点 是 安排 好 存储 器 访问 。 

从 图 4-5 中 我 们 可 以 看 到 一 个 数字 信和 号 处 理 器 包 
含 了 一 个 CPU 、 两 个 存储 模块 和 一 个 外 部 共享 存储 器 。 图 4-5 以 DSP 为 例 的 哈佛 体系 结构 
这 个 设备 看 上 去 也 是 采用 了 哈佛 体系 结构 (程序 与 数 站 
据 分 开 存 储 ， 独 立 总 线 ) ， 但 同时 又 与 一 个 外 部 共享 ’ 
存储 器 相连 。 这 种 类 型 的 存储 器 是 很 常见 的 ， 一 般 内 人 
部 存储 都 是 SRAM ， 而 外 部 存储 器 都 选用 更 廉价 的 SDRAM (参见 7.6 节 对 存储 技术 及 其 特点 的 
详细 介绍 ) 

片上 存储 器 一 般 都 采用 较 短 的 总 线 并 且 速 度 非常 快 ， 有 时 可 以 在 一 个 时 钟 周期 内 取 到 指 
令 。 有 些 情况 下 ， 也 采用 两 周期 的 存储 模块 ， 而 之 所 以 该 存储 需要 使 用 两 个 周期 ， 是 因为 其 请 
求 数据 占用 一 个 周期 ， 将 数据 有 效 化 占用 一 个 周期 。 

我 们 现在 暂时 忽略 存储 器 的 速度 ， 再 看 一 下 乘 累 加 这 个 例子 。 我 们 需要 给 乘法 器 输入 两 个 
值 : 一 个 预先 设 定好 的 滤波 系数 al ] 和 输入 数据 x[]。 在 一 个 共享 总 线 下 ,不 可 能 同时 获取 或 
者 传送 这 两 个 数据 。 然 而 ， 以 图 中 的 内 部 分 离 式 总 线 设 计 ， 如 果 这 两 个 数据 分 别 来 自 两 个 独立 
的 片上 存储 器 ， 则 它们 可 以 同时 获取 并 可 以 在 一 个 周期 内 完成 乘法 操作 。 总 体 来 看 ， 这 将 是 一 
个 多 周期 操作 : 一 个 周期 载 人 指令 并 进行 译 码 ， 接 下 来 的 周期 载 入 操作 数 ， 之 后 的 一 个 或 多 个 
周期 对 这 些 操作 数 完 成 相应 的 操作 。 然 而 ， 考 虑 到 快速 单 周 期 片上 存储 器 的 存在 ， 取 操作 数 有 
可 能 成 为 内 部 指令 周期 的 一 部 分 。 

通常 ， 任 何在 片 外 总 线 上 的 传送 速度 要 比 片 上 的 慢 ， 这 也 是 使 用 cache 存储 的 一 个 主要 原 
因 ( 详 见 4.4 节 )。 往 往 在 有 SDRAM 外 存 的 地 方 通常 都 会 有 片上 cache 来 缓解 SDRAM 带 来 的 
问题 ， 这 个 问题 就 是 不 论 SDRAM 有 多 快 ， 总 会 在 对 存储 器 进行 数据 访问 和 数据 准备 时 有 2 或 
3 个 周期 的 延迟 。 
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4. 1.5 双 总 线 体系 结构 


退 一 步 说 ， 大 量 硬件 的 节省 是 压缩 总 线 数量 的 结果 一 -在 集成 电路 中 ， 总 线 是 由 一 束 并 
行 的 硬 连 线 组 成 ,不同 的 缓存 、 寄 存 器 或 者 互联 结构 配置 ， 有 着 不 同 的 总 线 成 本 。 对 于 珍 
贵 的 硅 面积 来 讲 ， 这 些 实际 占用 芯片 面积 的 总 线 无 疑 会 影响 其 总 成 本 。 因 此 ， 通 过 采用 双 
总 线 结构 来 降低 芯片 面积 (以 及 成 本 ) 是 完全 有 可 能 的 ， 采用 单 总 线 结构 效果 会 更 好 ( 见 
村 

在 这 里 我 们 采用 的 实例 并 没有 与 计算 机 体系 结构 的 发 展 做 出 对 比 。 之 所 以 这 样 做 是 因为 一 
个 三 总 线 的 结构 比 一 个 单 总 线 的 结构 更 容易 让 人 接受 ， 也 更 易于 解释 。 设 计 单 总 线 结构 是 需要 
技巧 的 ， 这 种 应 用 于 硅 片 上 的 技巧 曾 在 20 世纪 80 年 代 前 出 现 过 ， 但 是 这 却 无 法 复杂 化 一 个 简 
单 的 观点 一 一 总 线 就 是 一 条 位 于 源 操作 数 和 目的 结果 值 之 间 的 路 径 。 本 章 中 所 有 的 例子 都 是 虚 
构 的 ， 它 们 呈现 出 一 些 类 似 于 ARM 体系 结构 的 东西 ， 但 在 总 线 安排 上 却 又 不 一 样 。 原 始 的 简 
化 总 线 的 设计 ， 例 如 值得 尊敬 的 6502 处 理 器 ， 只 有 很 少 的 寄存 器 组 和 一 个 乘法 器 。 这 里 隐 含 
着 一 个 问题 ， 那 就 是 硅 片面 积 过 小 的 限制 带 来 一 个 很 好 的 体 
系 结构 设计 ， 有 时 候 甚 至 是 具有 较 高 时 效 性 体系 结构 的 设 
计 。 在 仅仅 有 三 个 通用 寄存 器 的 限制 下 ，6502 的 设计 者 从 来 
没 想 过 去 设计 另外 一 条 并 行 的 总 线 ， 而 是 在 有 限 的 硬件 资源 
下 增加 了 一 些 寄存 器 。 

图 4-6 显示 了 一 个 寄存 器 组 与 ALU 相连 的 双 总 线 排列 ， 
在 ALU 周围 有 三 个 寄存 器 或 锁 存 器 (不 考虑 较 大 的 寄存 器 
组 ， 这 跟 6502 非常 相似 ) 。 图 4-6 连接 ALU 和 寄存 器 组 

为 了 实现 这 一 设计 ， 并 且 让 接 下 来 的 例子 更 有 意义 ， 我 的 双 路 总 线 
们 有 必要 回顾 一 下 关于 ALU 的 一 些 知识 ， 这 就 是 传输 延迟 时 
间 。 当 我 们 给 ALU 的 两 个 输入 端 送信 稳 定 的 电信 号 时 ,需要 等 待 一 定 的 时 间 来 获取 最 终 有 效 的 计 
算 结 果 。 一 些 控制 迎 辑 (图 4-6 中 未 给 出 ) 用 来 控制 ALU 应 该 执行 哪些 具体 的 算术 或 逻辑 操作 。 
但 是 具体 的 等 待 时 间 是 由 具体 的 操作 所 决定 的 ， 最 大 时 间 (也 就 是 最 坏 情 况 ) 决定 了 在 这 块 ALU 
电路 上 的 时 钟 能 运行 的 频率 。 在 当今 系统 中 ， 这 种 延迟 一 般 为 1 纳 秒 或 2 纳 秒 。 

这 种 延迟 不 能 忽略 ， 但 这 里 的 问题 是 没有 有 效 的 最 小 延迟 ， 这 意味 着 只 要 输入 信和 号 被 取消 
或 发 生 改 变 ， 输 出 结果 就 会 混乱 。 这 个 问题 所 带 来 的 结果 就 是 输入 操作 数 必 须 保存 在 一 个 地 方 
来 驱动 ALU 完成 计算 结果 输出 和 存储 ， 只 有 做 完 这 些 ， 输 入 才 可 以 改变 。 

因此 ，ALU 的 输入 端 必须 配置 寄存 器 。 对 于 一 个 用 双 总 线 来 驱动 ALU 的 结构 来 说 ， 要 想 
同时 输入 数据 和 得 到 结果 ， 必 须 至 少 配备 一 个 寄存 器 。 如 果 有 两 个 寄存 器 ， 那 么 就 会 有 更 多 的 
可 稍微 节省 硬件 的 方案 供 选 择 ， 不 过 影响 更 多 的 是 下 面 的 操作 : 


ADD RO, R1, R2 ;RO=R]1+R2 


下 面 每 个 序号 标注 的 步骤 按时 间 顺 序 执行 : 

1) 建立 系统 ， 清 空 总 线 并 且 将 ALU 的 功能 调制 成 加 法 模式 。 

2) 让 寄存 器 R1 驱动 总 线 1 (打开 寄存 器 的 输出 缓冲 器 ) 。 

3) 让 寄存 器 R2 驱动 总 线 2 (打开 寄存 器 的 输出 缓冲 器 ) 。 

4) 将 总 线 1 上 的 数据 锁 存 进 ALU 的 第 一 个 操作 数 寄存 器 ， 同 时 让 总 线 2 上 的 数据 锁 存 进 
ALU 的 第 二 个 操作 数 寄存 器 。 

5) 关闭 Rl 的 寄存 器 输出 缓冲 器 ( 总线 1 空 闪 )， 关闭 R2 的 寄存 器 输出 缓冲 器 (总 线 2 
空闲 ) ， 等 待 最 长 的 传输 延迟 时 间 。 
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6) 将 ALU 的 结果 锁 存 进 ALU 的 输出 缓冲 器 中 。 
7) 允许 ALU 的 输出 缓冲 器 驱动 一 个 总 线 。 
8) 将 刚刚 计算 出 的 结果 锁 存 进 寄 存 器 RO 中 。 
9) 关闭 ALU 的 输出 缓冲 器 (两 个 总 线 空间， 系统 准备 好 下 次 操作 )。 
可 以 看 到 ,非常 简单 的 加 法 指令 实际 上 包含 了 很 多 必须 在 硬件 上 执行 的 步 又。 除了 ALU 
的 传输 延迟 外 ， 这 个 过 程 共有 8 个 步骤 。 在 三 路 总 线 的 设计 中 ( 见 4.1.1 节 )， 执 行 这 样 一 个 
加 法 也 许 只 需要 3 个 时 间 周 期 。 
一 个 简单 加 法 指令 的 复杂 执行 步骤 说 明了 在 CPU 中 控制 单元 的 重要 性 ( 见 3.2.4 节 )。 你 
能 想象 得 到 对 一 个 多 周期 的 CISC 指令 进行 控制 的 复杂 性 吗 ? 


4. 1.6 单 总 线 体系 结构 


单 总 线 体系 结构 可 以 从 上 一 节 的 内 容 中 推测 出 来 。 
我 们 仍然 使 用 一 个 ARM 风格 的 处 理 器 作为 例子 ， 这 个 
结构 也 许 和 图 4-7 看 上 去 很 相似 。 

注意 体系 结构 简洁 性 的 设计 ， 其 实 就 是 掩盖 掉 这 个 
例子 中 的 多 步 又 操作 的 复杂 性 。 我 们 考虑 上 一 节 中 的 计 
算 功 能 ， 其 在 单 总 线 体系 结构 下 的 表现 为 : 

1) 建立 系统 ， 并 且 将 ALU 的 功能 调制 成 加 法 图 4.7 连接 ALU 和 寄存 器 组 的 
模式 。 单 路 总 线 

2) 让 寄存 器 R1 驱动 总 线 (打开 寄存 器 的 输出 组 
冲 器 )。 

3) 将 总 线 上 的 数据 锁 存 进 ALU 的 第 一 个 操作 数 寄存 器 。 

4) 关闭 R1 的 寄存 器 输出 缓冲 器 ， 让 寄存 器 R2 驱动 总 线 (打开 寄存 器 的 缓冲 输出 )。 

5) 将 总 线 上 的 数据 锁 存 进 ALU 的 第 二 个 操作 数 寄存 器 。 

6) 关闭 Rl 的 寄存 器 输出 缓冲 器 ， 等 待 ALU 的 最 大 传输 延迟 。 

7) 将 ALU 的 结果 锁 存 进 ALU 的 输出 缓冲 器 中 。 

8) 允许 ALU 的 输出 缓冲 器 驱动 总 线 。 

9) 将 计算 结果 锁 存 进 寄存 器 RO 中 。 

10) 关闭 ALU 的 输出 缓冲 器 〈 总 线 空 闲 ， 系 统 准 备 好 下 次 操作 ) 。 

与 上 一 节 中 的 双 总 线 体 系 结构 相 比 ， 多 出 来 的 两 步 
和 效率 的 降低 值得 注意 。 历 史上 对 单 总 线 体系 结构 的 改 
进 就 是 增加 了 一 个 非常 短 且 低 成 本 的 结果 反馈 总 线 ， 如 
图 4-8 所 示 。 

虽然 在 这 里 有 几 个 备 选 方案 也 可 以 执行 以 上 操作 ， 
但 是 所 有 方案 都 是 将 ALU 的 运算 结果 反馈 到 ALU 输入 的 
一 支 。 这 也 许 对 于 累加 操作 或 者 随后 的 算术 /逻辑 操作 有 图 4-8 以 图 4-7 中 连接 ALU 和 寄 








用 。 这 样 ， 图 中 ALU 左边 的 寄存 器 就 成 了 著名 的 累加 存 器 组 的 单 总 线 结构 为 基 
器 ， 它 几乎 是 所 有 操作 的 基础 ， 在 整个 系统 中 是 使 用 频 础 ， 增 加 了 一 个 从 ALU 的 
率 最 高 的 ， 也 是 程序 员 的 朋友 。 老 牌 底层 程序 员 熟 悉 并 输出 到 AUDU 往 人 镇 存 的 反 
喜爱 累加 器 ， 其 中 很 多 人 为 它 被 RISC 和 CISC 所 “扼杀 ” 侦 连 接 131 


而 感到 伤心 。 新 西 兰 的 著名 工程 管理 专家 Adrian Busch 
总 结 道 :“ 如 果 CPU 没有 一 个 累加 器 ， 那 就 算 不 得 一 个 真正 的 CPU。” 








4.2 算术 逻辑 单元 


4.2.1 ALU 功能 


显然 ， 算 术 逻 辑 单元 (ALU) 作为 计算 机 的 一 部 分 用 来 执行 算术 和 逻辑 操作 。 但 是 这 些 操 
作 具 体 是 指 什么 ?下 面 两 个 处 理 器 的 ALU 操作 也 许 会 对 我 们 有 所 提示 : 
。 ADSP2181 一 一 加 、 减 、 自 增 、 自 减 、 与 、 或 、 异 或 、 传 递 /清空 、 取 反 、 非 、 绝 对 值 、 
置 位 、 位 测试 、 位 翻转 。 有 一 些 限 制 是 某 些 寄存 器 只 能 用 作 输 入 并 且 只 有 两 个 寄存 器 
可 以 用 作 输 出 。 
。 ARM7 一 一 加 、 减 、 自 增 、 自 减 、 与 、 或 、 异 或 、 传 递 /清空 、 非 。 所 有 的 寄存 器 既 可 
以 用 作 输 入 寄存 器 ， 也 可 以 用 作 输 出 寄存 器 。 
一 般 情况 下 ，ALU 执行 按 位 逻辑 操作 、 测 试 、 加 或 减 。 同 时 ， 通 过 对 以 上 多 个 ALU 操作 
进行 组 合 ， 可 以 派生 出 许多 其 他 的 功能 操作 。 
一 个 基本 的 ALU， 能 够 执行 加 法 和 减法 ， 可 以 分 割 为 单个 位 的 操作 链 ， 与 2.4. 2 节 中 的 进 
位 传递 加 法 器 类 似 ， 如 图 4-9 所 示 。 图 中 没有 给 出 控制 和 功能 选择 逻辑 ，8 个 独立 的 单个 位 
ALU 按 位 完成 2 字 节 输入 和 1 字 节 输出 的 加 法 。 这 个 操作 可 以 写 为 : 
R = ALU op(A, B) 


| A7B7 A6B6 A5SB5S A0B0 | 





图 4-9 ”并行 按 位 功能 链 示 意图 ， 其 中 并 行 的 单个 位 单元 并 行 地 组 成 了 1 字 节 位 宽 的 ALU 


一 些 4 位 的 ALU 操作 例子 在 下 表 中 给 出 (附录 B 给 出 了 每 种 类 型 门 的 按 位 真 值 表 以 及 它 
们 广泛 使 用 的 逻辑 符号 ) 。 请 注意 ，EOR ( 异 或 ) 通常 也 写 为 XOR: 


1001 AND 1110 = 1000 
0011 AND 1010 0010 
1100 | OR 0001 E 1101 
0001 OR 1001 = 1001 弛 
Ed 
0001 ADD 0001 = 0010 加 法 












































0100 ADD 1000 二 1100 加 法 











0111 ADD 0001 = 1000 加 法 
NOT 1001 = 0110 取 反 


0101 SUB 0001 = 0100 减法 

0110 EOR 1100 让 = 1010 异 或 

从 第 2 章 的 内 容 我 们 知道 ， 加 法 和 减法 都 不 是 并 行 的 按 位 操作 ， 也 就 是 说 一 个 加 法 的 第 n 
位 结果 不 仅仅 依赖 于 每 一 个 输入 数据 的 第 nn 位， 还 和 前 面 的 第 n -1 位 ,第 n -2 位 ，…… ， 第 


0 位 有 关系 。 事 实 上 ， 两 个 值 之 间 的 算术 操作 一 般 都 不 是 由 单个 位 并 行 的 方式 完成 的 ,但 是 逻 
辑 操作 是 可 以 的 。 
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知道 了 ALU 可 以 完成 哪些 类 型 的 功能 并 学 习 完 这 些 例子 ,现在 让 我 们 去 完成 一 个 ALU 底 
层 设计 来 探究 具体 如 何 操作 。 
4.2.2 ALU 设计 


图 4-10 是 ALU 模块 通用 符号 示意 图 ， 可 以 看 到 该 ALU 有 位 的 输入 操作 数 A 和 B， 还 有 
! 位 的 输出 操作 数 。 





图 4-10 常 使 用 模块 符号 来 表示 一 个 ALU,， 该 ALU 拥有 位 的 输入 操作 数 
A 和 B、 功 能 选择 逻辑 ， 以 及 最 终 位 的 结果 输出 和 状态 标志 输出 


函数 选择 通常 是 一 个 并 行 控制 接口 ， 它 向 ALU 标识 正在 执行 的 操作 。 状 态 信息 包含 了 结 
果 是 正 、 负 、 等 于 零 ， 以 及 一 个 进位 或 者 一 个 溢出 。 在 一 些 处 理 器 中 ， 这 些 值 都 简写 成 N、Z、 
0 和 C。 


















































之 前 TT 操作 之 后 
RI1 R2 RO 
5 3 SUB RO,R1,R2 0 
8 | 10 SUB RO ,RI1,R2 一 2 
假设 寄存 器 是 8 位 的 ， 这 样 一 个 8 位 的 寄存 器 就 可 以 存储 0 ~ 255 的 无 符号 数 和 - 128 ~ 127 的 有 符号 数 
255 1 ADD RO ,R1,R2 0 C 
127 1 1 ADD RO ,R1,R2 128 (无 符号 数 ) ，-128 (有 符号 数 ) 0, N 
=-1 1 ADD RO,R1,R2 | 0 Z; CG 





注意 : 对 于 二 进 制 的 8 位 数 ， 其 加 法 ， 比 如 01111111 + 0000001 总 是 等 于 10000000。 问 题 
是 如 何 去 解 释 这 些 。 输 入 的 数据 是 十 进 制 的 127 和 1， 如 果 将 它们 解释 为 补 码 (有 符号 二 进 制 
数 ) ， 那 么 输出 是 -128 ， 如 果 解 释 为 无 符号 二 进 制 数 ， 那 么 输出 是 + 128。 没 有 更 进一步 的 信 
息 ， 只 有 程序 员 才 会 知道 这 些 算术 运算 究竟 是 哪 种 类 型 的 运算 。 | 

溢出 标志 0 是 用 来 辅助 两 个 补 码 计算 的 。 对 于 ALU 来 说 ， 有 符号 数 和 无 符号 数 是 没有 区 
别 的。 然而 ， 当 一 个 涉及 补 码 的 计算 有 可 能 溢出 时 ，ALU 会 通过 写 和 人 溢出 标志 位 来 提示 程序 员 
该 运算 溢出 。 如 果 程 序 员 在 处 理 无 符号 数 ， 那 么 可 以 忽略 这 个 标志 位 。 可 是 当 运 算 涉 及 两 个 补 
码 时 ， 就 需要 注意 这 个 溢出 标志 了 ， 它 表示 计算 结果 太 大 而 无 法 在 规定 范围 内 表示 。 

对 于 我 们 设计 的 ALU ， 将 考虑 一 个 简单 的 进位 标志 ， 而 其 他 的 状态 标志 暂时 不 考虑 。 我 们 
仅 涉 及 与 、 或 和 加 这 3 种 功能 。 该 ALU 是 个 多 位 并 行 ALU， 我 们 只 设计 一 位 加 法 器 (因为 所 
有 位 都 相同 ) 。 

最 终 的 设计 结果 ， 其 逻辑 图 如 图 4-11 所 示 。 框 4.1 以 该 设计 为 基础 演示 了 如 何 计算 该 
ALU 的 最 大 传输 延迟 。 


名 ”往往 采用 “V” 来 表示 溢出 标志 ， 而 不 是 “0”， 这 可 能 是 担心 与 0 ( 零 ) 混 消 。 








功能 选择 | 


全 加 器 


进位 输出 
图 4-11 典型 单个 位 ALU 的 内 部 逻辑 连接 示意 图 


探讨 ALU 的 传输 延迟 

让 我 们 探讨 一 下 为 什么 每 个 逻辑 门 会 产生 4ns 传输 延迟 : 这 段 时 间 是 指 从 一 个 新 的 数据 输入 到 产生 
一 个 新 的 稳定 输出 数据 的 时 间 。 

查看 图 4-11 中 的 ALU 图 示 来 寻找 最 坏 情况 下 的 最 长 路 径 (忽略 功能 选择 信号 )。 输 入 A 和 B 都 要 经 
过 两 个 区 域 的 门 ， 在 左上 部 的 区 域 中 只 有 两 级 门 ， 而 经 过 右 下 方 的 全 加 器 时 ， 在 到 达 输 出 前 其 输入 要 经 
过 4 个 门 ， 到 达 Co 要 经 过 3 个 门 。 

也 就 是 说 ， 进 位 信号 在 进位 输出 之 前 要 经 过 两 个 门 ， 在 结果 Z 输出 之 前 要 经 过 3 个 门 。 这 个 过 程 可 
以 总 结 如 下 : 

A/B 到 Z: 4 x4ns =16ns 

A/B 到 C,,: 3 x4ns =12ns 

Ci 到 Z: 3 x4ns =12ns 

Ci 到 C,: 2x4ns=8ns 

让 我 们 根据 这 些 数字 来 寻找 一 个 4 位 ALU 在 执行 加 法 时 在 最 坏 情况 下 的 传输 延迟 : 
Al 





B， Bu 


这 是 A+B=Z， 因 为 这 是 一 个 加 法 ， 所 以 我 们 需要 计算 进位 传送 。 

我 们 现在 可 以 追踪 最 坏 情况 传输 路 径 ， 其 输入 在 ALU 的 右边 ， 通 过 进位 链 依次 传送 ， 到 达 ALU 最 
高 有 效 位 。 因 为 从 任何 输入 到 乙 输 出 的 延迟 都 不 过 是 进位 输出 的 延迟 ， 因 此 最 坏 情 况 可 以 总 结 如 下 : 

Bit 0: A/B 到 Cu 用 时 12ns 

Bit 1: Ci 到 C, ,用 时 8ns 

Bit2: Ci 到 C, ,用 时 8ns 

Bit3: C;, 到 ZZ 用 时 12ns 

总 共 : 40ns 

如 果 按 此 在 最 快 时 钟 频率 下 执行 ， 则 时 钟 周期 不 能 超过 40ns， 以 确保 对 于 每 个 输入 得 到 正确 的 最 终 
结果 。 当 然 ， 有 些 时 候 正确 输出 出 现 的 速度 要 比 上 面 快 ， 但 是 没有 一 个 简单 的 方法 能 事先 决定 结果 输出 
的 快慢 ， 因 此 我 们 必须 考虑 最 长 传输 延迟 等 待 时 间 ， 而 此 时 时 钟 频率 为 1/40ns =25MHz。 

这 并 不 是 现代 处 理 器 最 快 的 时 钟 速度 。 其 实 可 以 采用 更 快 的 逻辑 门 ， 允 许 加 法 器 在 两 个 时 钟 周期 内 
完成 ， 或 者 使 用 一 些 其 他 技巧 来 加 快 加 法 器 。 一 个 技巧 就 是 使 用 进位 预测 或 者 超前 单元 ( 见 2.4.3 节 )。 
这 两 种 方法 很 快 ， 但 是 当 加 法 器 的 操作 数位 数 很 大 时 要 占用 大 量 的 逻辑 。 
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4.3 内 存 管理 单元 


就 CPU 而 言 ， 一 个 内 存 管理 单元 (MMU) 允许 物理 存储 器 以 另外 一 种 多 辑 组 合 方式 组 织 。 
它 是 存在 于 CPU 和 主 存储 器 之 间 的 硬件 ， 该 硬件 连接 在 存储 器 读 写 总 线 和 逮 辑 存储 组 织 之 上 ， 
即 所 谓 的 虚拟 存储 。 它 是 1962 年 在 曼彻斯特 大 学 发 明 的 ， 有 时 也 称 之 为 分 页 存储 。 


4. 3. 1 对 虚拟 存储 的 需求 


虚拟 存储 给 CPU 提供 了 一 个 很 大 的 存储 空间 ， 而 且 是 用 户 程 序 可 见 的 。 现 实 中 ， 物 理 存 
储 往往 很 小 ， 而 CPU 所 需要 的 虚拟 存储 内 容 必 须 载 人 物理 存储 中 。 许 多 现在 的 操作 系统 ， 例 
如 Linux 就 是 建立 在 虚拟 存储 之 上 的 。 

虚拟 存储 允许 在 计算 机 上 运行 的 程序 (或 程序 序列 ) 规模 超过 可 用 的 RAM。 当 然 ， 这 个 
功能 的 实现 要 依靠 巧妙 的 编程 ， 并 且 要 外 接 一 个 更 大 的 存储 器 ， 比 如 硬盘 。 然 而 ， 一 个 MMU 
可 以 确保 程序 在 执行 时 存储 器 看 上 去 是 连续 的 并 且 足 够 大 。 确 切 地 说 ，MMU 所 负责 的 是 计算 
机 中 存放 程序 的 虚拟 存储 空间 以 及 所 对 应 的 物理 RAM。 

提出 虚拟 存储 的 初 训 是 为 了 解决 快速 而 又 昂贵 的 RAM 和 缓慢 而 又 廉价 的 硬盘 之 间 的 不 平 
衡 。 使 用 虚拟 存储 可 以 让 一 台 计 算 机 的 成 本 更 加 低廉 ， 这 人 台 拥 有 较 小 RAM 的 计算 机 可 以 表现 
得 和 拥有 更 多 存储 空间 的 高 成 本 计算 机 一 样 好 ， 唯 一 的 不 同 就 是 有 时 候 存储 器 的 访问 会 比 
较 慢 。 

当 MMU 工作 时 ， 与 纯 RAM 相 比 , 平均 存储 器 访问 速度 将 降低 ， 这 是 因为 硬盘 的 速度 实在 
是 太 慢 了 ， 这 也 可 以 看 成 是 对 这 种 设计 的 折 中 。 

注意 ， 二 级 存储 不 一 定 非得 是 硬盘 ， 它 可 以 是 任何 存储 介质 ， 只 要 可 以 提供 更 大 的 廉价 空 
间 以 及 速度 比 主 RAM 慢 即 可 ， 包 括 较 慢 的 闪存 等 。 
4. 3.2 ”MMU 操作 

在 现代 的 MMU 系统 中 ， 未 使 用 的 页 面 通常 存储 在 低速 而 又 廉价 的 硬盘 中 。 

图 4-12 是 一 个 MMU 连接 的 简单 例子 ， 在 这 里 ， 就 CPU 而 言 ， 该 系统 有 一 个 32 位 的 地 址 
空间 (因此 它 可 以 寻 址 2” 个 内 存单 元 ,或 者 说 4GiB 的 内 存 )。 然 而 该 例子 中 存储 器 的 位 宽 只 


有 20 位 ( 即 2” 个 内 存单 元 , 也 就 是 1MiB)。 而 通过 MMU，CPU 可 以 看 见 4GiB 的 空间 ， 而 不 
是 1MiB。 


20 位 地 址 总 线 





图 4-12 一 个 MMU 用 来 连接 CPU 和 物理 RAM 及 硬盘 ， 数据 总 线 将 这 些 部 件 直接 相连 ， 
MMU 用 来 调整 地 址 总 线 信 号 以 控制 存储 器 上 的 数据 读 写 


存储 器 划分 为 页 (page) 。 如 果 我 们 假设 每 个 页 面 为 256KiB 大 小 〈 这 是 个 典型 值 ) ， 那 么 
主 存 可 以 存放 4 个 页 面 , 但 是 CPU 可 以 访问 多 达 16 384 个 页 面 。 

MMU 将 新 的 页 面 载 人 RAM， 并且 将 暂 不 使 用 的 页 面 写 回 硬盘 (硬盘 足够 大 )。 如 果 CPU 
要 请 求 的 页 面 没有 加 载 到 RAM 上 ， 这 个 时 候 MMU 首先 需要 将 一 个 未 使 用 的 页 面 从 RAM 退回 


U36 





到 硬盘 上 (将 其 存储 回 硬 盘 ) ， 然 后 再 将 CPU 请 求 的 页 面 加 载 到 RAM 上 。 

要 知道 应 该 退回 哪个 页 面 ，MMU 需要 追踪 哪个 页 面 正在 使 用 ， 并且 选 择 一 个 理想 的 未 使 
用 的 页 面 进行 退回 。 这 种 设计 思想 与 cache 类 似 ( 见 4.4 节 )。 两 个 查找 表 用 来 记录 当前 RAM 
和 硬盘 的 存储 信息 ， 这 两 个 表 分 别 叫 作 物理 RAM 占用 表 和 磁盘 存储 占用 表 。 

在 MMU 的 管理 让， 如 果 CPU 的 请 求 页 面 已 经 在 RAM 中 ， 那么 我 们 称 之 为 命中 ， 如 果 没 
有 在 RAM 中 ， 我 们 称 之 为 页 面 缺失 或 未 命中 。 这 个 操作 如 图 4-13 所 示 , 框 4.2 给 出 了 一 个 
实例 。 








VW, 


地 址 的 物理 读 取 页 面 的 硬盘 地 址 


图 4-13 ”MMU 的 简单 示意 图 ， 给 出 了 内 部 连接 的 关系 ， 以 及 缺失 和 命中 所 带 来 的 结果 


MMU 实例 

在 一 个 简单 的 CPU 中， 物理 RAM 占用 表 如 下 图 所 示 。 在 这 里 ， 表 中 的 每 一 行 都 对 应 着 计算 机 内 的 
一 个 逻辑 页 地 址 。 前 面 的 参数 表示 当前 哪 一 个 页 面 载 入 了 RAM、 如 何 载 入 ， 以 及 载 入 了 RAM 中 的 哪个 
位 置 。 





注意 表 中 的 页 0 在 RAM 中 的 0 号 地 址 ， 而 页 1 在 0x0100 地 址 。 现 在 ， 我 们 知道 页 可 以 放置 在 RAM 
的 任何 位 置 ， 但 是 在 这 里 我 们 能 看 到 页 的 大 小 只 有 0x0100 (256) 个 单元 。 这 对 应 于 8 位 的 地 址 总 线 ， 
并 允许 用 0 ~255 之 间 的 数 表 示 8 位 行 号 。 

我 们 也 可 以 看 到 总 共有 16 384 个 页 面 : 需要 14 位 才能 够 完全 表示 。 这 给 我 们 的 启示 是 CPU 上 可 以 
支持 的 存储 器 宽度 为 14 +8 =22 位 。8 位 的 地 址 用 来 表示 行 号 ， 其 余 的 14 位 用 来 表示 页 号 。 以 这 22 位 来 
表示 ， 我 们 将 拥有 2”= 4MiB 的 存储 空间 (假设 每 个 位 置 可 以 存放 一 个 字 节 )， 也 就 是 16 384 x 
256 =4 194 304。 

注意 : 从 这 个 例子 中 我 们 可 以 知道 在 计算 机 中 从 CPU 的 逻辑 地 址 转换 为 行 号 和 页 号 的 规则 一 一 底部 
8 位 是 行 号 ， 前 14 位 是 页 号 。 
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当 一 个 CPU 从 存储 器 的 X 位 置 读 和 人 时 需要 经 过 以 下 步骤 : 

1) CPU 将 地 址 X 写 入 地 址 总 线 中 ， 然 后 发 出 一 个 读 信和 号。 

2) MMU 发 出 一 个 信号 让 CPU 等 待 一 段 时 间 。 

3) MMU 将 地 址 X 分 成 页 号 与 该 页 中 的 行 号 。 

4) MMU 询问 物理 RAM 占用 表 。 

。 如果 请 求 的 页 面 已 经 命中 , 则 MMU 输出 要 读 取 的 物理 RAM 地址。 物理 RAM 地 址 加 上 |138 

页 面 内 的 行 号 成 为 最 终 的 物理 RAM 地 址 。 

。 如 果 请 求 的 页 面 缺 失 ， 则 将 页 号 传递 给 磁盘 存储 占用 表 。 在 该 表 中 查找 到 需要 读 取 的 
页 ， 然 后 将 整个 页 面 加 载 进 RAM。 因 为 此 时 该 页 面 才 进 入 RAM， 因 此 不 以 像 页 面 命中 
时 的 方式 将 地 址 X 的 内 容 送 回 给 CPU。 

。 注意 ， 物 理 RAM 在 大 小 上 是 不 受 限 制 的 ， 那么 必然 有 一 个 将 页 面 退回 给 硬盘 的 过 程 ， 
这 个 过 程 根据 追踪 页 面 的 使 用 情况 来 决定 返回 哪些 页 面 。 

5) MMU 输出 地 址 X 的 内 容 到 数据 总 线 上 ， 然 后 发 出 信号 通知 CPU ， 数 据 已 经 准备 好 。 

很 明显 ， 在 页 面 缺 失 的 时 候 CPU 必须 等 待 一 段 较 长 的 时 间 来 从 存储 器 中 得 到 一 个 值 。 硬 
盘 可 能 比 RAM 要 慢 好 几 百 倍 ， 不 管 厂商 如 何 努 力 地 去 创建 快速 系统 ， 查 找 的 过 程 相 对 来 说 还 
是 比较 慢 。 我 们 将 这 个 等 待 时 间 称 为 停滞 时 间 (stall time) 。 

应 该 注意 的 是 ， 一些 关 键 程序 (例如 响应 中 断 的 程序 ) 不 能 等 待 页 面 缺 失 中 涉及 的 检索 
时 间 。 在 这 种 情况 下 ， 一 些 对 速度 要 求 极 为 严格 的 变量 或 者 程序 一 般 都 存放 在 一 个 特殊 的 页 面 
中 ， 该 页 面 被 固定 在 物理 RAM 上 。 事 实 上 ， 页 面 属性 允许 高 级 MMU 用 几 种 不 同 的 方式 来 处 理 
页 面 。 现 代 操 作 系统 将 中 断 服务 例 程 和 底层 调度 代码 以 这 种 形式 固定 在 物理 RAM 上 。 

将 存储 页 面 放 在 硬盘 上 并 在 使 用 时 将 其 载 人 RAM 的 方法 ， 看 上 去 比较 符合 逻辑 ， 使 用 户 
体验 到 的 存储 空间 比 实 际 更 大 。 然 而 ， 实 施 这 种 方法 也 存在 很 多 困难 ， 当 要 载 人 一 个 新 页 面 
时 ， 哪 个 页 面 应 该 退回 ?或 者 每 个 页 面 究竟 为 多 大 最 好 ? 这 些 都 是 下 面 两 节 中 所 要 考虑 的 
问题 。 


4.3.3 退回 算法 


如 果 一 个 新 的 页 面 要 从 硬盘 加 载 进 物理 RAM， 除 非 RAM 中 刚好 有 空间 ， 和 否则 必须 有 一 个 
已 经 载 人 内 容 的 页 退回 给 硬盘 ， 来 给 新 页 面 腾 出 空间 ， 并 同时 更 新 RAM 的 占用 表 。 

有 多 种 算法 用 来 解决 此 类 问题 ， 以 决定 应 该 将 哪个 页 面 退回 给 硬盘 。 

。 LRU: 最 近 最 少 使 用 算法 ， 也 就 是 最 近 一 段 时 间 内 最 少 使 用 的 页 面 应 该 退回 。 

。 FIFO: 先进 先 出 算法 ,最 早 进入 的 页 面 应 该 退回 。 

这 两 个 算法 各 有 优 缺 点 。 微 软 的 Windows 操作 系统 用 户 在 配置 较 低 的 机 器 上 使 用 该 操作 系 
统 时 对 磁盘 拌 动 (disc thrashing) 问题 较为 熟悉 ， 此 问题 表现 为 磁盘 看 上 去 一 直 在 运行 。 产 生 
这 个 问题 的 原因 就 是 采用 了 一 个 很 坏 的 退回 算法 。 考 虑 一 个 很 大 的 循环 程序 ， 它 的 代码 分 别 存 
储 在 好 几 个 页 面 上 ， 在 这 种 情况 下 ， 仅 仅 是 从 循环 底部 返回 到 循环 的 顶部 就 可 能 会 引起 这 类 问 
题 ， 而 这 一 现象 是 存放 循环 项 部 的 页 面 已 经 被 退回 所 引起 的 。 [139 | 

最 坏 的 情况 是 有 一 个 很 大 的 程序 ， 其 变量 分 布 在 多 个 页 面 上 。 如 果 一 个 小 程序 要 将 单个 数 
据 分 别 赋 给 这 些 变量 ， 则 包含 这 些 变量 的 页 面 也 许 会 仅仅 为 一 个 变量 的 写 人 而 全 部 被 调 入 
RAM。 在 这 种 情况 下 ， 编 译 器 和 操作 系统 很 难 通过 聚集 存储 位 置 来 优化 程序 。 

这 个 退回 问题 和 cache 一 样 ， 面 临 着 相同 的 问题 ， 将 在 4. 4 节 中 讨论 。 


4. 3.4 内 部 存储 碎片 和 片段 
如 果 用 一 个 完整 的 页 面 来 存放 一 点 点 的 内 容 ， 对 于 存储 器 来 说 就 会 非常 低 效 。 或 者 如 果 一 
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个 程序 比 一 个 页 面 稍 大 一 点 儿 ， 以 至 于 仅仅 几 行 的 程序 不 得 不 存放 在 另 一 个 空 的 页 面 中 ， 这 样 
这 个 程序 就 占用 了 两 个 页 面 ， 但 其 实 这 个 程序 更 近似 于 一 个 页 面 的 大 小 。 

这 两 种 情况 下 ， 计 算 机 快速 而 又 珍贵 的 RAM 必须 得 保存 这 些 没有 用 到 的 空间 。 而 且 ， 为 
了 载 人 这 些 零头 数据 ， 每 次 都 得 执行 元 长 而 又 慢 速 的 页 面 退回 和 载 人 新 页 面 的 过 程 。 我 们 称 这 
种 情况 为 内 部 存储 碎片 。 

解决 此 类 问题 的 一 种 方法 就 是 减 小 页 面 的 规模 。 然 而 ， 这 样 做 的 后 果 是 MMU 的 查找 表 变 
得 很 大 ， 而 且 会 使 查找 过 程 本 身 成 为 MMU 操作 的 一 个 瓶颈 。 

最 新 的 解决 方法 是 引入 一 个 存储 器 片段 一 一 一 种 可 变 长 度 的 页 面 ， 而 且 这 种 页 面 可 随 着 程 
序 执 行 的 需要 增 大 或 减 小 。 一 段 C 语言 程序 可 能 会 使 用 一 个 存储 片段 来 存放 本 地 函数 变量 ， 用 
另 一 个 片段 存放 全 局 变量 ， 再 用 一 个 片段 存放 程序 堆栈 。 尽 管 C 程序 员 不 需要 关心 底层 细 市 ， 
但 潜在 的 程序 操作 可 能 会 通过 片段 编号 和 片段 〈 行 ) 中 的 地 址 来 读 取 变 量 。 这 种 设计 叫 作 二 
维 存储 。 

存储 片段 的 一 个 优点 就 是 片段 之 间 不 会 彼此 扰乱 。 程 序 存 储 器 片段 可 能 是 可 执行 的 ， 而 数 
据 存储 器 片段 是 不 可 执行 的 ， 因 此 错误 地 分 支 到 数据 存储 器 将 导致 错误 (而 不 是 较 旧 的 操作 系 
统 和 计算 机 所 普遍 发 生 的 整体 机 器 骨 溃 ) 。 同 样 ， 如 果 一 个 程序 将 变量 存储 到 错误 的 位 置 ， 将 
不 会 被 允许 覆盖 另 一 个 应 用 程序 的 内 存 。 


4. 3.5 外 部 碎片 


片段 存储 方式 会 更 加 复杂 ， 其 原因 是 这 种 方式 需要 对 每 个 片段 的 大 小 和 内 容 进 行 追 踪 ， 也 
就 使 得 各 种 占用 表 更 加 复杂 。 然 而 ， 由 于 避免 了 内 部 存储 碎片 的 麻烦 ， 这 种 方式 比 起 原始 的 页 
管理 方法 更 加 高 效 。 

遗憾 的 是 ， 当 将 这 种 方式 用 于 解决 外 部 存储 碎片 时 会 比较 麻烦 ， 如 图 4-14 所 示 。 从 左 到 
右 看 此 图 ， 一 个 原始 的 程序 载 人 进来 ， 如 中 中 所 示 ， 占 用 了 4 个 存储 片段 。 在 @ 中 ， 操 作 系 统 
想 要 从 片段 5 中 读 取 一 些 数据 ， 所 以 要 退回 一 个 片段 〈 本 例 中 选择 了 片段 3) 。 然 后 在 加 中， 
片段 5 被 加 载 进来 。 在 @ 中 ， 片 段 1 被 退回 到 硬盘 ， 而 在 @ 中 操作 系统 想 要 读 取 片段 3 并 将 其 
重新 加 载 进来 。 


























© 
图 4-14 图 解 外 部 碎片 : 在 内 存 片段 加 载 和 移 除 过 程 中 ， 经 过 以 上 5 个 步骤 之 后 ， 在 外 部 
存储 中 有 足够 的 总 存储 空间 ， 但 没有 足够 的 连续 存储 空间 用 于 加 载 片段 3 


此 时 ， 对 于 片段 3 来 讲 很 明显 有 足够 的 空闲 RAM 空间 ， 但 是 没有 足够 的 连续 空闲 空间 。 
有 两 个 备 选 解 决 方案 。 第 一 个 就 是 将 片段 3 分 割 为 两 部 分 ， 然 后 将 其 加 载 到 合适 的 位 置 。 第 二 
个 就 是 先 整理 存储 空间 ， 然 后 再 载 入 片段 3。 在 这 个 例子 里 第 一 个 解决 方法 也 许 是 可 行 的 ， 但 
是 会 在 复杂 性 和 时 间 上 变 得 很 差 ， 因 为 这 个 片段 会 被 越 分 越 小 。 基 于 这 个 原因 ， 通 常 采用 第 二 
个 方法 。 这 种 整理 的 过 程 称 为 压缩 ， 并 且 在 载 人 片段 3 之 前 执行 ， 如 图 4-15 所 示 。 
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在 载 入 片段 3 
之 前 压缩 





图 4-15 完成 图 4-14 中 的 存储 操作 ， 并 且 在 重新 载 和 片段 3 之 前 压缩 空白 片段 ， 对 存储 内 容 进 行 重组 


很 明显 压缩 会 花费 一 些 时 间 ， 所 以 只 能 在 必要 时 使 用 该 方法 。 
片段 管理 算法 多 年 来 一 直 是 一 个 研究 热点 。 一 般 做 法 都 是 追踪 存储 器 的 使 用 和 未 使 用 的 状 
况 ， 然 后 以 某 种 方式 高 效 地 压缩 空白 片段 。 有 一 些 简 单 的 算法 ， 默 认 会 在 出 现 空隙 时 执行 


4.3.6 改进 的 MMU 


4.3.2 节 中 所 讲述 的 MMU 硬件 可 以 很 好 地 处 理 定 长 页 面 ， 但 是 对 于 可 变 长 度 的 片段 会 怎 
样 呢 ? 要 知道 所 有 被 请 求 的 位 置 必 须 在 物理 RAM 占用 表 中 查找 ， 因 此 其 速度 对 于 全 局 的 存储 
器 读 写 来 说 显得 至 关 重 要 。 简 单 地 将 地 址 总 线 一 分 为 二 ， 将 后 面 的 一 些 位 看 作 行 号 ， 前 面 的 一 
些 位 看 作 页 号 ， 这 种 做 法 无 法 满足 片段 存储 的 需求 ， 因 为 在 这 里 每 个 页 面 的 大 小 都 不 一 致 。 这 
也 意味 着 占用 表 成 为 一 个 复杂 的 地 址 内 容 查找 表 (LUT) 。 

这 些 复杂 的 LUT 的 查找 时 间 与 其 规模 成 正比 ， 也 就 是 说 表 的 规模 越 大 ， 查 找 起 来 越 慢 。 
问题 是 ， 为 了 减 小 外 部 存储 碎片 ， 系 统 需 要 对 相对 较 小 的 片段 /页 面 进行 处 理 。 考 虑 Ultra- 
SPARC 开 这 个 例子 ， 它 支持 2200GB 的 RAM, 但 是 其 页 面 规模 为 8KB， 也 就 是 最 坏 情况 下 有 
20 万 个 页 面 。 存 储 这 些 页 面 信息 的 LUT 会 变 得 非常 慢 ， 意 味 着 所 有 的 存储 读 写 ， 在 或 者 不 在 
RAM 上 ， 都 将 会 被 查找 过 程 极 大 地 延误 。 

解决 这 个 问题 的 方法 是 对 经 常 使 用 的 页 面 引入 一 种 较 小 而 又 快速 的 查找 表 ， 而 把 不 经 常 使 
用 的 页 面 存放 在 慢 速 的 查找 表 (或 者 RAM) 中 。 这 可 以 有 效 地 缓存 查找 表 的 内 容 ， 也 叫 作 转 
换 后 援 缓冲 器 (Translation Look- aside Buffer，TLB ) 。 它 也 有 其 他 名 字 ， 比 如 转换 缓冲 器 
(Translation Buffer，TB) 、 目 录 后 援 表 (Directory Look-aside Table，DLT) 或 者 地 址 转换 高 速 组 
存 (Address Translation Cache，ATC) ， 如 图 4-16 所 示 。 





RAM 中 取 回 转换 查找 辅助 缓存 
图 4-16 MMU 使 用 转换 查找 辅助 缓存 TLB 进行 操作 ， 可 以 与 图 4-13 中 没有 使 用 TLB 的 情况 进行 对 比 








通常 ， 与 可 实现 的 性 能 改进 相 比 ，TLB 技术 需要 昂贵 的 额外 硬件 和 存储 器 ， 因 此 更 倾向 于 
保留 用 于 速度 关键 应 用 的 处 理 器 。 


4. 3.7 内 存 保护 


除了 能 够 对 进出 RAM 和 硬盘 上 的 数据 进行 交换 控制 外 ， 对 系统 设计 者 而 言 ，MMU 还 有 一 
些 其 他 的 好 处 。 事 实 上 ，RAM 越 来 越 廉价 ， 很 多 软件 已 经 不 把 节省 RAM 空间 看 作 一 个 设计 目 
标 了 。 对 于 嵌入 式 处 理 器 来 讲 同样 如 此 ， 尽 管 没 有 外 部 存储 器 ( 比如 硬盘 ) ，MMU 依旧 存在 。 
问题 是 ， 为 什么 当 最 初 的 目标 已 经 渐渐 消失 的 时 候 ， 系 统 设 计 者 还 依旧 坚持 使 用 MMU 呢 ? 

最 主要 的 原因 就 是 存储 保护 。 因 为 MMU 是 位 于 主 存储 器 和 处 理 器 之 间 的 ， 无 须 处 理 器 的 
干预 就 可 以 很 快 地 对 地 址 进行 扫描 和 更 改 。 遇 到 任何 问题 时 (比如 请 求 了 一 个 不 存在 的 地 
址 )，MMU 可 以 向 处 理 器 发 出 预警 信号 。 在 ARM 中 ,这 可 以 通过 称 为 数据 异常 ( data abort ) 
的 中 断 信 号 来 实现 。 或 者 当 取 一 条 不 存在 的 指令 时 ， 通 过 称 为 预 取 异 常 (prefetch abort) 的 中 
断 信号 来 实现 。 设 计 人 员 应 该 编写 底层 异常 处 理 程序 ， 并 将 其 作为 操作 系统 的 一 部 分 以 应 对 这 
些 问题 的 发 生 。 

从 软件 的 角度 来 看 待 此 问题 ， 系 统 程序 员 可 以 让 MMU 去 限制 对 存储 器 各 个 位 置 的 访问 ， 
或 者 标记 存储 器 区 域 哪些 已 分 配 哪 些 未 分 配 。 编 译 后 的 代码 一 般 都 有 一 些 程序 区 域 和 数据 区 
域 ， 通 常 不 会 对 程序 区 域 再 进行 写 人 操作 ， 但 是 会 对 数据 区 域 进 行 该 操作 。 当 应 用 了 MMU 后 ， 
如 果 一 段 程序 区 域 的 指令 正在 执行 ,那么 存储 器 上 的 其 他 区 域 可 以 读 写 ， 而 不 会 向 正在 执行 的 
存储 区 域 进行 写 人 。 

在 大 多 数 现代 操作 系统 中 ， 用 户 代 码 分 不 清 哪些 存储 器 位 置 是 可 写 的 ， 哪 些 是 不 可 写 的 ， 
它 只 能 写 人 自己 分 配 到 的 内 存 区 域 。 这 也 就 防止 了 用 户 代码 写 入 错误 的 地 方 ， 进 而 导致 系统 
衣 溃 。 

非 操 作 系统 的 代码 是 不 允许 对 操作 系统 控制 的 寄存 器 进行 写 和 的， 也 不 允许 对 其 他 程序 的 
数据 区 域 进行 覆盖 写 人 。 这 对 操作 系统 的 安全 性 和 可 靠 性 至 关 重 要 。 一 个 很 重要 的 例子 就 是 保 
护 0 地 址 。 一 些 经 常 犯 的 编程 错误 ( 见 框 4.3)， 都 是 由 于 从 0 地 址 读 或 者 写 人 了 0 地 址 而 造成 
的 。 在 Linux 中 ， 如 果 一 个 编译 好 的 C 程序 试图 尝试 此 类 操作 ， 将 会 被 自动 退出 并 给 予 一 个 
“segmentation fault” 的 错误 提示 。 
追踪 C 程序 中 的 软件 错误 

一 般 C 编译 器 都 会 将 新 定义 的 变量 初始 化 为 0， 这 有 助 于 追踪 在 0 地 址 发 生 的 错误 : 


int *p; 
int x; 
X=*p; // 由 于 p 被 设置 为 NULL(0)， 因 此 从 此 处 读 取 将 触发 数据 中 止 


如 果 没 有 足够 的 存储 空间 ， 用 malloc() 库 函 数 来 定义 一 块 存储 空间 时 就 会 失败 ， 并 且 返 回 NULL: 
void *ptr=malloc(16384); 

// 我 们 忘 了 检查 返回 地 址 以 查看 malloc 是 否 失败 

*ptr=20; // 如 果 Ptr 保 持 为 NULL(0)， 则 将 触发 数据 中 止 

类 似 地 ， 还 有 一 个 函数 在 运行 时 则 分 配 内 存 空 间 : 


boot now!() 
void (*theKernel) (int zero, int arch); 
printf ("Launchingukernel\n"),，; 


theKernel (0, 9); 


} 
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在 这 段 代 码 里 〈( 取 自 典 入 式 系统 引导 程序 ， 详 见 9.5 节 )， 函 数 theKernel() 在 第 一 行 中 被 定义 并 且 
指定 了 一 个 存储 器 地 址 ， 而 该 地 址 已 经 被 操作 系统 内 核 所 使 有 用。 然而， 程序 员 忘 记 了 这 个 问题 。 在 默认 
情况 下 ， 该 函数 将 被 分 配 到 0 地 址 ， 从 而 在 执行 函数 theKernel() 时 会 跳 到 0 地 址 上 ， 最 后 导致 一 个 预 取 
异常 (prefetch abort) 。 

注意 传递 给 函数 的 值 0 和 9 在 分 支 发 生前 是 存放 在 寄存 器 RO 和 R1 内 的 (对 于 ARM 来 说 ) 。 如 果 内 
核 确实 驻 留 在 指定 的 地 址 且 是 在 嵌入 式 Linux 系统 中 ， 该 函数 依旧 执行 ， 那 么 系统 在 运行 时 就 会 使 用 当 
前 RO 和 RI 内 的 数据 ， 不 会 抛 出 异常 错误 。 


4.4 cache 


高 速 缓存 存储 器 (cache) 有 着 非常 快 的 存 取 速度 ， 但 其 成 本 也 非常 高 ， 通 常 其 物理 位 置 
更 靠近 CPU。 如 果 成 本 不 是 问题 ， 计 算 机 设计 者 在 其 系统 中 就 只 采用 快速 存储 ， 但 这 样 一 来 对 
大 众 消费 者 来 说 ， 这 种 设计 就 会 变 得 非常 不 经 济 ， 当 然 超 级 计算 机 除外 。 

cache 在 存储 架构 中 的 层次 在 3. 2. 2 节 中 有 相关 介绍 。 我 们 知道 ， 在 存储 架构 中 越 接 近 顶 
部 的 存储 器 速度 也 就 越 快 ， 但 成 本 也 越 高 ， 反 之 则 速度 越 慢 ， 成 本 越 低 。 

cache 用 于 提高 存储 器 的 平均 存 取 速度 ， 而 MMU 则 用 来 允许 计算 机 拥有 更 大 的 存储 空间 ， 
但 这 样 一 来 ， 势 必 会 降低 平均 存 取 速度 。 与 MMU 不 同 ，cache 是 不 受 任何 操作 系统 干涉 的 。 然 
而 ， 它 对 于 应 用 程序 员 来 说 是 透明 的 ， 这 一 点 与 MMU 一 样 。 

在 实际 系统 中 ， 不 只 有 一 个 cache， 事 实 上 有 很 多 不 同等 级 的 cache 以 不 同 的 速度 在 运行 。 
最 高 等 级 的 cache (最 靠近 CPU) 通常 以 片上 存储 的 形式 实现 ， 这 些 cache 通常 都 很 小 (例如 
ARM 和 80486 仅 有 8KB ) ， 随 着 cache 的 等 级 降低 ， 其 容量 逐渐 增加 。 框 4.4 以 Intel Pentium 
Pro 处 理 器 (已 过 时 ) 系统 作为 实例 很 好 地 阐述 了 cache 的 概念 。 

Intel Pentium Pro 的 cache 实例 

Intel Pentium Pro 的 cache 设计 方法 在 当年 极 具 创 新 性 ， 在 CPU 的 芯片 内 拥有 256KB 的 cache， 不 过 
其 与 CPU 独立 开 来 。 遗 憾 的 是 ， 这 个 设计 ( 见 下 图 ) 后 来 被 发 现 不 是 很 稳定 ， 并 且 最 终 成 为 一 个 失败 的 
产品 系列 。 


512KB 
66MHz 
SRAM 


128KB 
55MHz 
DRAM 





和 


在 该 图 中 ， 可 以 看 到 CPU 内 置 了 一 个 相对 快 而 小 的 一 级 8KB cache。 而 二 级 cache 与 CPU 在 同一 个 
芯片 内 ,但 是 速度 为 一 级 cache 的 一 半 ， 容 量 却 是 其 32 倍 。 三 级 cache 是 快速 SRAM， 位 于 主板 上 ， 比 二 
级 cache 要 慢 ， 但 容量 为 二 级 cache 的 两 倍 。 最后， 相 比 前 面 3 种 cache， 主 存 容量 足够 大 ， 但 也 很 慢 ， 
它 是 一 种 低 成 本 高 密度 的 存储 体 DRAM (dynamic RAM) ， 但 速度 要 慢 于 SRAM。 

注意 : 当今 的 cache 系统 与 此 仍然 十 分 类 似 ， 但 是 在 规模 上 大 了 许多 ,每 一 个 RAM 的 大 小 都 可 能 多 
了 几 个 零 ， 甚 至 出 现 了 更 高 级 别 。 主 存 已 经 从 SDRAM 转变 为 RDRAM, 或 者 DDR RAM 等 ( 见 7.6 节 )。 

将 cache 划分 开 来 ， 可 以 分 别 用 于 数据 和 指令 存储 ， 这 在 采用 哈佛 体系 结构 (具有 用 于 数 
据 和 程序 存储 的 单独 处 理 器 ， 见 2.1.2 节 ) 的 处 理 器 中 是 必要 的 , 但 对 于 冯 ， 诺 依 曼 体 系 结构 
来 说 也 是 很 有 益处 的 。 例 如 ， 具 有 创新 性 的 DEC StrongARM 处 理 器 是 基于 ARM 的 ， 因此 其 内 
部 是 汉 “' 诺 依 曼 体系 结构 ， 不 过 该 处 理 器 却 采 用 了 一 个 哈佛 体系 结构 的 cache。 这 样 可 以 让 两 
个 cache 部 分 对 不 同 的 存储 行为 进行 优化 : 比如 说 程序 存储 存 取 偏向 于 顺序 操作 ， 而 数据 存储 
操作 更 偏向 于 跳跃 式 读 写 ， 因 此 需要 不 同 的 cache 策略 和 结构 来 适应 这 两 种 不 同类 型 的 操作 。 
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与 虚拟 存储 类 似 ， 当 CPU 请 求 的 数据 不 在 cache 中 时 会 产生 cache 缺失 ， 并且 不 得 不 从 速 
度 较 慢 的 存储 器 中 调 入 数据。 就 像 虚拟 存储 那样 ，cache 中 的 某 些 数据 必须 首先 退回 ， 然 后 进 
行 一 些 压缩 。 

请 求 的 位 置 可 以 在 cache rr 比率 称 为 命中 率 ， 因 此 这 也 是 考察 cache 性 能 最 重要 的 
指标 。 通 过 良好 的 cache 组 织 和 一 个 高 效 的 cache 算法 可 以 提高 命中 率 。 

有 很 多 不 同形 式 的 cache wa 这 些 方式 对 cache 的 成 本 和 性 能 表现 有 极 大 的 影响 。 
其 中 有 3 个 是 最 常见 的 : 直接 相 联 cache、 组 相 联 cache 和 全 相 联 cache， 接 下 来 将 对 这 3 种 方 
式 进 行 介绍 。 

注意 在 现代 CPU 中 ，cache 实际 上 是 整 块 地 读 取 内 存 ， 可 能 是 一 次 读 取 32 字 节 或 者 64 字 节 ， 
而 不 是 只 读 取 一 个 存储 单元 。 为 了 简单 起 见 ， 本 节 给 出 的 例子 中 的 每 个 cache 块 只 包含 一 个 内 存 
地 址 。 在 更 加 现实 的 存储 块 情况 下 ，cache 中 的 标记 位 地 址 是 块 地 址 的 起 始 ，cache 控制 器 知道 连 
续 m 个 存储 器 位 置 必须 以 一 个 缓存 行 (cache line) 读 人 。 这 种 方式 的 好 处 是 在 像 SDRAM 或 者 
RDRAM 这 样 的 现代 存储 器 中 ， 对 连续 位 置 的 读 写 比 对 多 个 单个 地 址 的 读 写 要 高 效 很 多 。 


4.4. 1 直接 相 联 cache 


这 个 设计 方案 中 ， 每 个 cache 位 置 可 以 保存 一 行 来 自主 存储 器 的 数据 。 每 个 主 存储 器 的 地 
址 对 应 一 个 固定 的 cache 位 置 ， 由 于 cache 的 容量 远 小 于 存储 器 ， 因 此 每 个 cache 位 置 要 对 应 很 
多 存储 器 位 置 。 

当 要 求 直接 相 联 cache 返回 一 个 特定 存储 器 地 址 上 的 内 容 时 ， 只 需要 查看 cache 位 置 上 的 
标签 的 正确 性 。cache 位 置 取 自 存储 器 地 址 的 低 n 位 (假设 cache 和 存储 器 的 位 宽 相 等 ) ， 比 如 
32 位 的 例子 ， 如 下 图 所 示 : 


bit 32 bitn bit0 





将 cache 位 置 分 为 标签 和 行 的 做 法 类 似 于 在 MMU 中 的 页 与 行 的 划分 法 〈 见 4.3 节 )。 直 接 
相 联 cache 的 位 置 数 等 于 行 数 。 存 储 器 上 的 每 个 页 均 有 相同 的 行 数 ， 所 以 如 果 从 一 个 页 中 读 取 
一 个 数据 ， 它 将 按照 自己 所 属 的 行 载 人 具体 的 cache 中 。 

每 个 cache 位 置 实际 上 包含 了 一 些 域 : 一 个 已 用 /清空 (dirty/clean) 标志 位 ， 用 来 标识 
cache 位 置 上 的 数据 是 否 更 新 或 者 有 没有 存 进 主 存 里 ; 一 个 有 效 位 ， 用 来 标识 该 cache 位 置 是 否 
被 占用 ; 一 个 标签 位 ， 用 来 标识 哪 一 个 可 能 的 存储 器 页 已 经 实际 载 人 cache 中 ; 在 这 些 标志 位 
之 后 ，cache 存放 了 从 RAM 中 读 取 的 数据 。 

所 以 直接 相 联 cache 算法 应 该 是 : 

。 CPU 从 存储 器 中 读 取 一 一 将 读 取 地 址 分 为 TAG 和 LINE 两 部 分 。 检 查 cache 的 LINE 位 

置 ， 并 查看 标签 位 是 否 与 CPU 要 求 的 一 致 。 如 果 一 致 ， 则 从 cache 中 读 取 数据 。 如 果 

标签 位 不 匹配 ， 则 查看 已 用 标志 位 。 如 果 这 个 已 用 标志 位 设 定 为 有 效 ， 则 首先 回 退 当 

前 cache 位 置 内 的 数据 到 主 存 上 ， 然 后 读 取 相 应 地 址 的 数据 到 当前 位 置 cache 上 。 清 空 

已 用 标志 位 ， 设 置 有 效 标 识 ， 并 且 更 新 TAG 位 。 

。 CPU 向 存储 器 写 入 一 一 有 以 下 几 种 情形 : 

- 直 写 (write through) : 将 数据 写 信 cache 行 中 并 且 也 写 人 主 存 中 。 

一 写 回 (write back) : 不 写 回 主 存 (这 种 情况 仅 发 生 在 下 一 个 时 间 男 外 一 个 存储 器 位 
置 要 使 用 该 cache 位 置 的 时 候 ) ， 只 存储 在 cache 上 。 

一 延迟 写 (write deferred): 允许 写 到 cache 上 ， 然 后 经 过 一 定时 间 后 写 回 主 存 (假设 
有 这 样 一 个 时 间 ， 并 且 CPU 没有 在 等 待 ) 。 
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cache 数据 一 旦 写 回 到 主 存 ， 就 要 清空 已 用 标签 ， 以 标识 现在 的 主 存 数据 和 cache 数据 是 一 
致 的 ， 这 叫 作 cache-memory 一 致 性 。 

在 直 写 方式 中 ， 如 果 将 要 向 其 中 写 数 据 的 存储 位 置 不 在 cache 中 ， 则 可 以 直接 向 存储 需 写 
和 人 数据， 从 而 跳 过 cache， 这 种 方式 叫 作 无 写 分 配 的 直 写 (write- through with no write- allocate， 
WTNA) 。 而 数据 总 是 存储 在 cache 中 ， 不 管 这 个 数据 是 否 写 到 了 存储 器 中 ， 这 种 方式 叫 作 有 和 写 
分 配 的 直 写 (write-through with write-allocate, WTWA )。 

直接 相 联 cache 的 主要 优点 就 是 查找 速度 快 。 对 于 每 一 个 主 存储 器 的 位 置 来 说 ， 只 有 一 个 
cache 位 置 与 之 对 应 。 然 而 ， 这 个 优势 也 是 个 问题 ， 每 个 cache 行 要 对 应 很 多 真实 的 物理 存储 位 
置 。 杠 4.5 给 出 了 一 个 直接 相 联 cache 存 取 的 例子 。 
直接 相 联 cache 实例 

下 图 给 出 了 在 一 个 简单 微型 计算 机 系统 中 ， 直 接 相 联 cache 当前 正在 使 用 的 情况 。 

Ky 

， 柯 Ea 


全 






0 0000 1A23 2351 


这 个 cache 有 1024 行 (对 应 于 10 位 的 地 址 总 线 ) ， 每 行 有 两 个 标志 位 、 一 个 标签 位 和 实际 缓存 的 数 
据 。 笑 脸 符号 表示 未 写 (elean) ， 悲 伤 符号 表示 已 写 (dirty)。 

在 系统 的 开始 阶段 ， 所 有 的 cache 条 目 都 被 清空 而 且 是 无 效 的 ， 像 第 1 行 。 这 可 能 意味 着 第 1 行 在 系 
统 重 置 后 就 没有 使 用 过 。 

第 0 行 是 有 效 的 ， 所 以 它 肯定 缓存 了 实际 数据 。 但 该 行 是 已 用 状态 ， 说 明 该 数据 最 近 肯 定 改 变 过 ， 
并 且 新 数据 还 没有 写 入 RAM 中 。 其 标签 位 为 0， 则 第 0 行 必然 存放 的 是 CPU 的 0 地 址 数据 ， 而 且 最 后 的 
数据 为 32 位 的 0xlA23 2351。 

由 于 cache 中 总 共有 1024 行 ， 因 此 第 0 行 还 可 以 存放 0x400 (1024)、0x800、0xC00 这 些 地 址 的 数据 。 

第 2 行 也 有 效 却 是 清空 的 ， 意 味 着 其 存储 的 数据 与 RAM 中 所 存放 的 一 致 。 它 所 对 应 的 页 (标签 ) 
位 置 为 0x100。 因 为 行 数 表示 了 低 10 位 的 地 址 总 线 ， 因 而 所 缓存 的 数据 在 RAM 中 的 地 址 为 (0x100 << 
10) +2 =0x40002， 且 该 数据 为 0x51。 

最 后 ， 第 1023 行 有 效 但 已 用 ， 意 味 着 该 位 置 的 数据 已 经 改变 。 其 标签 位 为 0， 所 以 读 取 的 数据 在 
RAM 中 的 地 址 为 (0x0 <<10) +1023 =0x003FF。 


4.4.2 组 相 联 cache 


直接 相 联 cache 的 问题 在 于 物理 地 址 为 0、1024、2048 、3072 等 的 内 存单 元 都 链接 在 同一 
个 cache 行 上 。 如 果 我 们 的 软件 要 使 用 0、1024 、2048 这 些 地 址 存放 数据 ， 那 么 在 同一 时 刻 只 
有 一 个 数据 能 够 进入 cache。 

为 了 解决 类 似 的 问题 ， 一 种 n 路 的 组 相 联 cache ( set-associative cache) 人 允许 了 个 cache 行 
和 存储 器 行 相关 联 。 其 本 质 就 是 n 个 直接 相 联 cache 以 并 行 的 方式 操作 。 

在 一 个 2 路 的 组 相 联 cache 中 ,可 以 有 两 个 cache 位 置 与 某 个 存储 器 地 址 相 联 〈 详 见 
框 4.6)。 从 这 种 方式 的 cache 中 读 取 数据 ， 其 过 程 仍 非常 快 ， 等 同 于 连接 了 两 个 查找 表 。 这 项 
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技术 已 经 被 广泛 采用 ， 例 如 最 早 的 Digital Equipment Corporation Strong ARM 处 理 器 ,包含 了 一 
个 32 路 的 组 相 联 cache。 

就 像 所 有 的 cache 一 样 ， 一 个 新 的 位 置 在 载 和 数据 之 前 必须 要 退回 之 前 的 数据 。 问 题 是 , n 
路 的 cache 如 何 退 回 ? 这 与 MMU 的 例子 中 的 问题 相似 ， 在 4.4.4 节 中 也 将 介绍 相关 的 退回 算法 。 
组 相 联 cache 实例 

下 图 显示 了 在 一 个 微型 计算 机 系统 中 2 路 组 相 联 cache 正在 使 用 的 情况 。 
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这 个 cache 有 着 与 框 4.5 中 的 直接 cache 极其 类 似 的 结构 ， 但 是 每 一 行 有 两 个 条 目 ( 因为 是 2 路 组 相 
联 )。 它 有 1024 行 ( 对 应 于 地 址 总 线 的 10 位 ) 。 笑 脸 符号 表示 清空 ， 悲 伤 符号 表示 已 用 。 

在 系统 的 开始 阶段 ， 所 有 的 cache 条 目 都 是 未 写 而 且 是 无 效 的 ， 像 第 工行 的 左 半 边 和 第 2 行 的 右 半 
边 。 这 可 能 意味 着 这 些 条 目 在 系统 重 置 后 就 没有 使 用 过 。 

直接 相 联 cache 和 组 相 联 cache 方式 的 不 同 之 处 可 以 从 第 0 行 看 出 。 在 第 0 行 的 左边 其 内 容 与 4.4.1 
节 中 的 例子 完全 一 样 。 但 是 在 这 个 例子 中 ， 相 同 的 行 还 可 以 同时 从 存储 器 的 第 4 页 (标签 4) 读 取 数 据 ， 
也 就 是 右 半边 这 个 条 目 ， 其 标志 位 显示 为 已 用 且 有 效 ， 这 意味 着 这 个 数据 已 经 改变 并 且 没 有 写 回 到 RAM 
中 。 它 存放 的 32 位 数据 为 0x4A93 B35F， 即 存储 地 址 (0x004 <<10) +0 =0x1000 的 最 近 有 效 内 容 。 


4. 4. 3 全 相 联 cache 


如 果 我 们 的 软件 经 常 使 用 0、1024 和 2048 这 3 个 地 址 ， 而 不 用 1、1025 和 2049， 那 么 直接 
相 联 cache 与 组 相 联 cache 的 第 0 行将 会 一 直 进 行 输入 输出 交换 ， 满 负荷 运转 。 相 反 ，cache 的 
第 1 行将 会 空置 。 

全 相 联 cache (full- associative cache) 解决 了 该 问题 ， 因 为 这 种 方法 可 以 允许 任意 存储 器 位 
置 映 射 到 任意 的 cache 位 置 上 。 在 这 种 情况 下 ， 标 签 位 就 包含 了 全 部 的 存储 器 地 址 信息 (而 不 
仅 是 页 内 信息 ) 。 

问题 是 ， 当 cache 从 存储 器 中 读 取 数据 时 ， 都 必须 检查 cache 中 的 每 个 标签 。 换 句 话说 ， 
对 cache 中 的 每 一 行 都 要 进行 检查 。 在 直接 相 联 cache 中 ， 只 需要 检查 一 个 标签 ， 而 在 路 组 
相 联 cache 中 也 只 需要 检查 nn 个 标签 。 

所 以 ,尽管 全 相 联 cache 方法 可 以 获得 很 好 的 命中 /缺失 比率 , 但 是 这 种 方法 会 由 于 其 自 
身 有 很 多 检查 操作 而 比较 慢 ， 这 类 似 于 MMU 中 的 物理 RAM 占用 表 问 题 。 


4.4.4 局 部 性 原则 


被 加 载 或 印 载 的 变量 存储 模式 极其 依赖 于 高 速 缓存 的 使 用 情况 。 但 在 一 般 情 况 下 ， 在 运行 
一 些 通用 程序 的 计算 机 中 ， 有 两 个 良 定义 的 特征 : 数据 存储 器 和 程序 存储 器 。 这 就 相生 了 诗人 
机 体系 结构 中 一 个 众所周知 的 术语 一 一 局 部 性 原理 ( principle of locality) 。 实 际 上 局 部 性 原则 
有 两 个 : 第 一 个 是 空间 局 部 性 (spatial locality) ， 它 涉及 地 址 的 聚集 性 ; 第 二 个 是 时 间 局 部 性 
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(temporal locality) ， 它 涉及 时 间 的 聚集 性 。 

通过 一 种 可 视 化 方法 就 可 以 发 现 这 个 原则 ， 查 看 计算 机 内 存 并 给 过 去 几 千 个 时 钟 周期 里 使 
用 过 的 数据 变量 着 色 。 如 果 在 操作 过 程 中 冻结 计算 机 ， 你 可 能 发 现 一 些 已 着 色 的 内 存 地 址 集群 
以 及 大 面积 目前 未 使 用 的 内 存 。 几 秒 钟 后 再 次 冻结 ， 你 会 发 现 男 一 些 活跃 着 的 不 同 的 内 存 集 
群 。 一 个 好 的 cache 操作 应 该 尝试 把 尽 可 能 多 的 着 色 集 群 放 到 快速 缓存 中 ， 从 而 加 快 程序 的 平 
均 执 行 时 间 。 

如 果 把 可 视 化 方法 应 用 到 程序 存储 器 ， 你 会 发 现 一 些 连续 的 着 色 内 存 块 像 丝 带 一 样 通过 内 
存 传送 。 

空间 局 部 性 原则 是 指 在 任何 一 个 时 刻 ， 活 跃 的 项 目 可 能 在 内 存 地 址 上 是 彼此 相 邻 的 。 对 程 
序 存储 器 来 说 这 是 由 于 程序 指令 的 连续 性 ， 而 对 数据 存储 器 来 说 这 是 由 于 编译 器 会 把 定义 的 变 
量 集 群 到 相同 的 内 存 段 中 。 

时 间 局 部 性 原则 是 指 一 个 近期 被 访问 过 的 项 目 相 比 于 其 他 位 置 的 项 目 更 可 能 被 再 次 访问 。 
对 程序 存储 器 来 说 可 以 通过 循环 结构 来 解释 ， 而 对 数据 存储 器 则 可 以 通过 整个 程序 中 重复 使 用 
一 些 变量 来 解释 。 

图 4-17 举例 说 明了 两 个 局 部 性 原则 ， 图 中 演示 了 3 个 内 存 页 ， 给 出 了 它们 在 程序 运行 过 
程 中 的 几 个 瞬间 快照 。 内 存 使 用 的 密度 通过 页 中 不 同 深浅 的 和 矩形 块 显示 出 来 。 内 存 地 址 通过 在 
和 矩形 页 中 的 位 置 表示 出 来 。 可 以 看 出 随 着 时 间 的 推移 ， 时 间 局 部 性 原则 导致 不 同 内 存 集群 之 间 
的 逐渐 移动 。 空 间 局 部 性 意味 着 内 存 的 访问 往往 集中 在 一 起 。 请 注意 ， 跨 多 个 页 存储 的 变量 
(或 者 堆栈 项 目 ) 在 任何 时 刻 都 可 能 变 得 有 效 。 这 是 因为 不 同类 型 的 项 目 可 以 停 驻 在 不 同 的 页 
面 (特别 是 ， 数 据 项 和 程序 项 不 可 能 共享 一 个 内 存 页 ) 。 


使 用 的 内 存 块 5 和 
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图 4-17 空间 局 部 性 和 时 间 局 部 性 原则 的 一 个 实例 ， 显 示 了 内 存 使 用 (用 在 几 个 内 存 页 上 涂 黑 的 内 存 块 
来 表示 ) 是 如 何 随时 间 变 化 的 。 时 间 局 部 性 : 前 一 个 时 刻 有 效 的 内 存 集群 往往 在 下 一 个 时 刻 还 
要 使 用 , 但 与 更 晚 些 时 间 里 用 到 的 集群 却 不 同 。 空 间 局 部 性 : 有 效 内 存 集群 驻 留 在 每 一 页 的 特 
定 区 域 中 ， 而 不 是 均匀 分 散 的 。 页 中 任何 时 刻 使 用 的 块 的 数目 标记 在 图 的 上 方 


局 部 性 的 含义 是 ， 在 一 般 情 况 下 大 致 预测 将 来 可 能 访问 的 内 存 位 置 是 有 可 能 的 。 一 个 好 的 
高 速 缓存 的 功能 就 是 利用 这 个 信息 来 缓存 这 些 位 置 ， 从 而 增加 平均 访问 速度 。 


150 
? 
151 


102 ”第 4 章 





4. 4. 5 ”cache 替换 算法 


替换 算法 用 于 在 运行 的 cache 中 记录 位 置 。 当 请 求 一 个 新 位 置 而 高 速 缓存 中 适当 的 部 分 已 
经 满 了 时 ， 替 换算 法 便 会 发 挥 作用 ， 这 意味 着 cache 中 一 些 位 置 要 被 新 的 位 置 替 换 。 如 果 cache 
中 适当 的 位 置 被 标记 为 “dirty”( 换 句 话说 ， 它 已 经 被 重 写 但 还 没有 被 保存 回 RAM) ， 那 么 必 
须 先 将 数据 保存 到 RAM。 相 比 之 下 ,“clean” 的 缓存 条 目 可 以 马上 更 换 ， 因 为 只 需 让 它们 存放 
与 RAM 中 的 缓存 位 置 相同 的 值 即 可 。 当 然 ,， 设置 谁 成 为 适当 的 位 置 是 缓存 组 织 的 功能 之 一 : 
全 相 联 cache 将 不 限制 位 置 ， 但 直接 相 联 cache 或 组 相 联 cache 会 限制 一 个 内 存 地 址 可 以 被 缓存 
在 哪 一 行 ( 或 哪 几 行 ) 。 
然而 ， 仍 然 存在 一 个 问题 ， 如 果 刚 被 送 回 RAM 的 某 一 行 在 很 短 的 时 间 后 又 需要 被 访问 ， 
就 不 得 不 把 它 再 装载 回去 。 而 这 可 能 需要 更 多 的 数据 退回 操作 ， 是 一 个 耗 时 的 过 程 。 
一 个 好 的 cache 能 最 大 限度 地 减少 加 载 和 印 载 的 次 数 ， 或 者 以 另 一 种 方式 ， 最 大 限度 地 提 
高 命中 率 。 要 做 到 这 一 点 ， 一 种 方式 是 确保 正确 的 数据 (定义 为 最 不 常用 数据 ) 被 收回 ， 而 
这 正 是 cache 替换 算法 的 工作 。 有 几 个 值得 一 提 的 常用 算法 : 
。 LRU (最 近 最 少 使 用 ) : 其 规模 复杂 性 与 cache 大 小 相关 ， 因 为 它 需要 维持 每 个 条 目的 
使 用 顺序 的 清单 。 下 一 个 要 收回 的 条 目 就 是 清单 底部 的 那 一 项 。LRU 在 大 多 数 情况 下 
可 以 合理 地 执行 。 
FIFO 〈 先 进 先 出 ) : 替换 cache 中 最 先进 来 的 位 置 。 这 在 硬件 上 很 容易 实现 ， 因 为 每 个 
加 载 行 标识 符 只 进入 一 个 FIFO， 当 需要 收回 某 一 项 时 ，FIFO 输出 的 标识 符 就 是 下 一 个 
被 替换 项 。 在 某 些 内 存 位 置 重复 使 用 很 长 时 间 而 男 外 一 些 内 存 位 置 仅仅 使 用 很 短 时 间 
的 情况 下 ，FIFO 不 如 LRU 有效 。 
。 LFU (最 不 常 使 用 ) : 替换 最 不 常用 的 位 置 。 这 很 难 实现 ， 因 为 每 个 cache 条 目 需要 有 
计数 器 ， 而 且 需 要 有 比较 所 有 计数 器 的 电路 。 然 而 ， 在 大 多 数 情 况 下 ，LFU 性 能 非 
常 好 。 

。 随机 算法 : 用 硬件 实现 很 容易 ， 只 需 挑 一 个 ( 伪 ) 随机 位 置 。 令 人 惊讶 的 是 ， 这 种 技 
术 实 际 上 执行 得 相当 好 。 

。 循环 算法 : 采取 轮流 收回 缓存 行 的 方法 。 这 种 算法 在 n 路 组 相 联 cache 中 很 常见 , 路 
的 每 一 路 轮流 被 收回 。 它 的 主要 优点 在 于 便于 实施 ， 但 对 较 小 的 cache 性 能 很 差 。 

记 住 ，cache 一 定 要 快 ， 因 为 这 些 算法 需要 记录 哪些 行 已 被 访问 以 及 当 需 要 替换 时 替换 哪 
一 行 ， 它 们 需要 以 一 种 不 会 限制 cache 性 能 的 方式 实现 ， 如 果 把 缓存 的 速度 减 慢 得 和 主 存储 器 
一 样 ， 那 么 再 完美 的 算法 也 是 没有 用 的 。 这 些 算法 需要 用 快速 的 硬件 而 不 是 软件 实现 。 因 此 ， 
实现 的 复杂 性 是 一 个 问题 。 

框 4.7 和 框 4. 8 列举 了 一 些 cache 替换 算法 如 何 操作 读 写 序列 
的 例子 。 
cache 替换 算法 示例 1 

问 : 计算 机 系统 cache 和 主 存储 器 状态 如 下 图 所 示 。 复 位 时 ，cache 
完全 是 空 的 ， 但 主 存储 器 位 置 填 满 了 aa、bb、cc 直到 这， 每 个 缓存 行 可 以 
缓存 一 个 内 存 地 址 。 


cache 


如 果 采 用 写 回 系统 的 LRU 替换 算法 ， 而 且 cache 是 全 相 联 的 (从 底 往 上 也” 
填 ) ， 追 踪 需 要 采取 的 行为 ， 画 出 经 过 下 面 的 操作 序列 后 cache 的 最 终 状态 : 2 
(1) 从 地 址 0 读 。 1 
(2) 从 地 址 1 读 。 0 





(3) 从 地 址 0 读 。 标签 数据 
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(4) 从 地 址 2 读 。 

(5) 从 地 址 3 读 。 

(6) 从 地 址 4 读 。 

(7) 把 99 写 入 地 址 5。 

答 : 我 们 将 研究 每 一 步 操作 ， 并 画 出 在 步骤 5、6、7 后 cache 填 满 后 的 状态 图 ， 如 下 图 所 示 : 
步骤 (5 ) 后 的 cache 步骤 (6) 后 的 cache 步骤 (7) 后 的 cache 





首先 ， 因 为 cache 是 空 的 ， 所 以 步骤 1 缺失 。 因 此 从 内 存 中 检索 到 值 aa 并 放置 在 cache 第 0 行 上 ， 标 
签 为 0 (因为 全 相 联 cache 标签 是 完整 的 内 存 地址 ) 。 步 又 2 同样 缺 失 ， 这 将 导致 bb 被 放置 在 第 1 行 。 步 
又 3 命中 一 一 地 址 0 已 经 在 第 0 行 中 了 ， 所 以 不 需要 采取 进一步 行动 。 步 骤 4 缺失 ， 导 致 ce 被 写 入 第 2 
行 。 步 又 3 同样 缺失 ， 这 将 导致 在 cache 第 3 行 填 入 dd。 

此 时 cache 已 满 ， 所 以 增加 任何 新 的 条 目 都 会 要 求 收回 某 一 条 目 。 由 于 我 们 使 用 LRU (最 近 最 少 使 
用 ) ， 因 此 需要 记录 最 后 一 次 访问 每 个 条 目的 时 间 。 步 骤 6 缺失 ， 所 以 内 存 中 位 置 6 的 值 需要 加 载 到 
cache 中 。 往 回 看 ， 最 近 最 少 使 用 的 是 步骤 2 中 的 第 1 行 而 不 是 步骤 1 中 的 第 0 行 ， 因 为 加 载 了 第 工行 后 
我 们 在 步骤 3 又 访问 了 第 0 行 ， 所 以 ， 步 骤 6 把 内 存 地 址 4 中 的 数据 ee 存 到 第 1 行 。 

最 后 ， 步 骤 7 涉及 从 CPU 写 入 内 存 。 由 于 我 们 有 一 个 写 回 系统 ， 这 个 值 必须 同时 放 到 cache 和 主 存 
储 器 中 。 再 次 应 用 LRU 算法 ,我 们 可 以 看 到 第 0 行 是 这 次 最 近 最 不 常用 的 位 置 ， 因 此 ， 它 要 被 新 的 数据 
取代 〈 它 没有 被 退回 ， 因 为 从 它 被 载 入 起 我 们 还 没有 对 它 进行 写 入 操作 ) 。 
到 浊 : 尖 cache 蔡 换 算法 示例 2 

问 : 计算 机 系统 的 cache 和 主 存储 器 如 下 图 所 示 。 

复位 时 ，cache 是 空 的 ， 但 主 存储 器 位 置 已 填 满 了 aa、 


bb、cc 直到 ii。 每 个 cache 行 可 以 容纳 两 个 内 存 地 址 〈 换 句 话 | 
说 ， 它 是 一 个 2 路 组 相 联 cache) 。 如 果 采 用 写 回 系统 的 FIFO ?| 也 | 
算法 ， 和 追踪 需要 采取 的 行动 ， 画 出 经 过 下 面 操作 的 序列 后 6| gg | 
cache 的 最 终 状 态 : s| 人 | 
(1) 从 地 址 0 读 。 2 路 组 相 联 cache 4| ee 
(2) 从 地 址 1 读 。 了 | | 
(3) 从 地 址 0 读 。 
(4) 从 地 址 2 读 。 2 2| 
(5) 从 地 址 3 读 。 1 1| | 
(6) 从 地 址 4 读 。 0 0 
(7) 把 99 写 到 地 址 5。 标 稚 又 据 “ 标 谷 要 据 存储 器 


(8) 把 88 写 到 地 址 8。 

答 : 首先 ， 确定 标签 范围 是 很 重要 的 。 由 于 cache 有 4 行 ， 内 存 地 址 10 ~31 停 驻 在 标签 区 域 0， 
14 ~7| 在 标签 区 域 1，|8 ~11| 在 标签 区 域 2， 以 此 类 推 。 内 存 地 址 0、4 和 8 映射 到 第 0 行 ， 地址 1、5、 
9 映射 到 第 1 行 ， 以 此 类 推 。 

现在 研究 每 一 步 操作 。 步 又 1 引起 缺失 并 导致 aa 被 加 载 到 cache 第 0 行 。 为 了 增加 可 读 性 ， 我 们 将 
先 填 左 半边 。 步 骤 2 同样 缺失 ， 填 入 第 1 行 。 步 又 3 命中 ， 导 致 cache 第 0 行 左边 的 值 被 读 出 。 步 骤 4 和 
步骤 5 也 缺失 ,将 ce 和 dd 分 别 填 入 第 2 行 和 第 3 行 。 此 时 ，cache 左边 的 每 一 行 都 填 满 了 。 所 以 步骤 6 
从 地 址 4 读 缺 失 将 导致 ee 被 放 到 cache 中 。 地 址 4 映射 到 cache 第 0 行 并 且 由 于 第 0 行 左 半 边 已 经 满 了 ， 
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所 以 它 被 写 到 了 右 半边 。 注 意 地 址 4 在 标签 区 域 1 中 。 

步骤 7 是 对 地 址 5 写 入 ， 地 址 5 映射 到 cache 第 1 行 ,标签 为 1。 我 们 还 没有 访问 过 地 址 5， 所 以 是 
缺失 的 ， 并 将 导致 数据 99 被 放 到 cache 第 1 行 余下 的 部 分 ， 即 右 半边 。 此 时 的 cache 状态 图 如 下 图 左 图 
所 示 。 

最 后 的 步骤 8 是 把 88 写 到 地 址 8。 地 址 8 映射 到 cache 第 0 行 并 在 标签 区 域 2 中 。 它 必定 被 放 到 
cache 中 ， 因 为 有 一 个 写 回 正在 使 用 。 然 而 ，cache 第 0 行 已 满 ， 所 以 有 一 项 需要 收回 。 采 用 FIFO 方案 ， 
先进 先 出 。 对 于 第 0 行 的 情况 ， 先 进来 的 是 左 半边 的 位 置 ， 所 以 它 被 88 替换 ， 如 下 图 右 图 所 示 。 


执行 步骤 7 后 的 cache 执行 步骤 8 后 的 cache 





标签 数据 标签 数据 标签 数据 标签 数据 


4. 4.6 cache 性 能 


命中 所 花费 的 时 间 相 当 于 检查 是 否 命中 (访问 cache 查找 表 ) 加 上 从 cache 中 检索 数据 以 
及 返回 到 请 求 数据 的 CPU 所 需 的 时 间 。 这 是 以 假设 更 新 替换 算法 的 运行 时 间 部 分 并 不 会 增加 
总 花费 时 间 为 前 提 的 。 由 于 cache 顾名思义 就 是 要 快 ， 所 以 检查 是 否 命 中 花费 的 时 间 应 尽 可 
能 少 。 

缺失 所 花费 的 时 间 稍 微 有 些 复杂 。 首 先 需 要 时 间 来 测试 是 否 命中 (访问 cache 查找 表 )， 
然后 运行 替换 算法 ， 再 查询 选 定 的 cache 行 的 dirty 标志 位 。 如 果 该 标志 位 有 效 ， 则 必须 将 把 不 
想 要 的 数据 退回 主 RAM 的 时 间 也 添加 进来 ， 再 加 上 把 需要 的 数据 从 主 RAM 加 载 到 cache 上 所 
需 的 时 间 ， 从 cache 中 检索 数据 到 CPU 所 需 的 时 间 也 要 列 人 考虑 因素 。 

如 果 cache 位 置 M 命中 的 访问 时 间 是  ， 但 是 在 cache 缺失 的 时 候 我 们 需要 把 字 M, 从 主 
存储 器 传送 到 cache M, ， 传 输 时 间 为 也 ， 那 么 命中 率 五 = cache 命中 数 /总 请 求 数 ， 平 均 访问 时 
间 7, 可 以 表示 为 : 

T= HX +l -BT +B) = (=, 

由 于 7 比 D 小 得 多 (当然 命中 比 缺失 快 很 多 ) ， 因 此 要 想 使 平均 访问 时 间接 近 7 ， 则 需 
要 高 命中 率 ( 换 句 话 说 ， 尽 量 达 到 #1)。 

如 果 C, 是 大 小 为 $ 的 cache 每 位 的 成 本 ，C, 是 大 小 为 5, 的 主 存储 器 每 位 的 成 本 ， 则 每 位 
的 平均 成 本 可 以 表示 为 : 

G, = CGC, 4 hy = A + 0 二 汤 》 

考虑 到 C, 远大 于 C, ， 则 cache 不 得 不 非常 小 ， 否 则 就 会 过 于 昂贵 。cache 设计 就 是 成 本 、 
速度 和 大 小 之 间 的 权衡 (考虑 大 小 是 因为 低级 别 的 cache 通常 不 得 不 安装 到 CPU 所 在 的 同一 个 
硅 世 片上， 占用 了 宝贵 的 空间 ) 。 

定义 访问 效率 为 : FM =1/|1+ (1 一 右 ) (7T,/T,)|， 可 以 认为 是 命中 率 为 1 时 的 理论 最 大 
速度 除 以 前 面 推 时 的 实际 平均 访问 速度 。7,/T, 访问 效率 的 一 些 典型 值 期 望 的 命中 率 在 框 4.9 
中 给 出 。 
访问 效率 示例 

T/Ts 访问 效率 的 一 些 典 型 值 对 应 的 命中 率 如 下 所 示 : 
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这 些 都 是 一 些 真 正 CPU 中 的 典型 数字 : 在 内 存 为 16MHz 的 75MHz ARM7 中 ,其 T/T, 的 值 逼近 5， 
可 以 达到 0.75 的 命中 率 (有 一 个 很 好 的 cache 贯穿 于 整个 良性 的 或 可 预见 的 程序 执行 )。 其 他 拥有 更 快 
cache 的 系统 会 有 更 高 的 命中 率 。 在 多 级 cache 的 情况 下 ,可 以 反复 分 析 达 到 7， 和 7 了 等 的 比率 。 当 然 ， 
如 果 将 正在 执行 的 程序 全 部 放 入 cache 中 ， 命 中 率 将 达到 1.0。 

请 注意 ， 拥 有 一 个 大 缓存 的 系统 并 不 少见 。 这 是 一 些 数字 信号 处 理 器 采用 的 有 效 方法 : 大 
容量 、 非 常 快 的 单 周 期 内 部 RAM 使 得 CPU 可 以 全 速 运行 其 操作 而 不 用 等 待 访问 内 存 。 一 个 流 
行 的 例子 就 是 ADI 公司 的 ADSP2181 芯片 有 80KB 的 高 速 片 上 存储 器 。 在 这 种 情况 下 ， 用 户 都 
愿意 花 大 价钱 拥有 与 CPU 紧 挨 在 一 起 的 大 RAM 块 ， 以 满足 性 能 需要 (所 有 操作 一 一 包括 内 存 
访问 一 一 在 一 个 周期 内 完成 ) 。 

有 各 种 改善 cache 性 能 的 技术 ， 例 如 预测 性 预 读 和 自 适 应 替换 算法 。 好 的 全 相 联 cache 可 
以 提供 高 达 0.9 的 命中 率 ， 尽 管 这 可 能 是 在 一 个 专门 的 系统 中 并 且 只 对 小 规模 的 程序 才能 
实现 。 





4.4.7 cache 一 致 性 


cache 一 致 性 是 确保 cache 中 一 个 内 存 位 置 的 所 有 副本 都 保持 相同 的 值 。 在 迄今 为 止 给 出 的 
例子 中 我 们 通过 简单 地 指定 clean/dirty 以 及 有 效 / 无 效 标志 来 解决 这 个 问题 。cache 一 致 性 在 共 
享 存储 的 多 处 理 器 系统 中 是 很 重要 的 。 然 而 ， 确 保 cache 一 致 性 特别 困难 。 

想象 一 下 一 个 共享 变量 被 两 个 CPU (A 和 B) 使 用 的 情况 。 如 果 它 被 两 个 CPU 读 取 ， 它 将 
最 终 在 两 个 CPU 上 都 进行 缓存 。 现 在 ， 如 果 两 个 CPU 之 一 ， 比 如 A， 改 变 了 变量 (通过 写 
入 ) ， 存 储 在 CPU A 的 cache 中 的 变量 将 被 更 新 。 在 直 写 系统 中 ， 变 量 的 新 值 会 立即 写 回 到 内 
存 ， 所 以 内 存 中 的 值 也 是 最 新 的 。 然 而 ，CPU B 的 cache 中 仍然 是 变量 的 旧 值 。 如 果 CPU B 读 
取 这 个 变量 ， 将 cache 命中 且 会 使 用 cache 中 的 旧 值 ， 而 不 是 RAM 中 最 新 的 正确 值 。CPU B 现 
在 读 取 不 正确 变量 的 问题 称 为 一 致 性 (coherency) 问 
题 CPU B 中 cache 的 变量 与 该 变量 存储 在 其 他 地 方 的 
值 不 一 致 。 

一 个 并 行 计算 机 系统 的 例子 如 图 4-18 所 示 ， 它 可 
以 被 扩展 成 更 多 的 处 理 器 。 由 于 CPU 间 共 享 总 线 带宽 ， 
它 将 很 快 成 为 性 能 瓶颈， 因此 将 独立 cache 做 得 很 大 以 
尽量 减少 访问 共享 RAM (因此 也 减少 了 总 线 的 使 用 )。 = 
然而 ， 这 只 能 加 剧 一 致 性 问题 。 图 4-18 此 图 给 出 了 两 个 CPU， 每 





、 区 ‘x Ny 个 CPU 有 一 个 独立 cache， 
现代 计算 机 系统 中 使 用 了 很 多 技术 来 解决 这 个 问 or 
题 。 有 一 个 常用 的 解决 方法 叫 作 侦 听 (snooping) 。 侦 听 主 RAM 相连 


就 是 cache“ 听 ”共享 总 线 上 其 他 cache 访问 的 过 程 。 这 
可 以 提供 两 个 有 用 的 信息 : 第 一 个 是 何 时 另 一 个 cache 读 取 的 位 置 也 在 本 地 cache 中 ; 第 二 个 
是 何 时 另 一 个 cache 写 回 到 内 存 的 位 置 也 在 本 地 cache 中 。 

使 用 侦 听 收集 来 的 信息 ， 智 能 cache 控制 器 可 以 采取 某 种 形式 的 行动 来 防止 一 致 性 问题 的 
发 生 。 例 如 ， 当 其 他 的 cache 写 回 到 共享 RAM 的 某 个 位 置 时 ,会 使 相应 的 本 地 cache 条 目 无 
效 。 事实 上 ， 有 许多 处 理 这 个 问题 的 方法 ， 而 MESI 协议 是 其 中 最 受 欢迎 的 方法 之 一 。 








MESI 协议 以 它 的 几 个 状态 modified (修改 ) 、exclusive (独占 ) 、shared (共享 ) 和 
invalid (无 效 ) 的 首 字母 命名 ， 它 基于 如 图 4-19 所 示 的 几 个 状态 机 。 在 图 中 ， 读 缺失 后 ，(S) 
或 者 (E) 表明 当 值 从 主 存储 器 取出 时 ， 另 一 个 cache 侦 听 单元 表示 它 也 保持 着 一 个 副本 〈 因 
而 用 S 表示 共享 )， 或 者 没有 其 他 侦 听 单元 表示 正在 使 用 它 (因而 用 EE 表示 独占 )。 因 此 可 以 


看 出 ， 侦 听 单 元 不 仅 负责 侦 听 其 他 cache 的 访问 ,而且 当 它 们 自己 缓存 着 其 他 cache 请 求 的 值 
时 也 要 通知 其 他 处 理 器 的 cache。 
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图 4-19 MESI 协议 状态 转换 图 ( 左 ) 以 及 缓存 一 部 分 来 显示 MESI 状态 标识 符 位 于 哪个 特定 的 缓存 行 〈 右 ) 


每 个 缓存 行 可 以 有 与 之 相关 的 4 个 状态 之 一 (而 不 是 有 效 /无 效 和 已 用 /清空 两 个 状态 ): 

。 工 是 无 效 状 态 ， 表 明 那 一 行 的 数据 不 正确 或 者 没有 缓存 任何 信息 。 

。 S 是 共享 状态 ， 意 味 着 其 他 CPU 可 能 也 缓存 着 这 个 值 。cache 可 以 通过 侦 听 共享 存储 总 

线 来 做 出 决定 。cache 中 的 值 与 主 存储 器 中 的 值 相 同 。 
。 M 是 修改 状态 ， 发 生 在 值 已 被 更 新 时 。 意 味 着 其 他 保持 着 这 个 值 的 cache 实际 上 保持 
的 是 旧 值 。 

。 是 独占 状态 ,表明 目前 没有 其 他 cache 保持 这 个 值 ， 它 与 主 存储 器 中 的 值 相同 。 

如 果 这 个 方案 应 用 于 共享 存储 的 多 处 理 器 系统 ， 那 么 每 个 CPU 有 它 自己 的 cache 并 且 每 个 
cache 使 用 MESI 协议 进行 控制 。cache 中 的 每 一 行 仍 需要 通常 的 行 号 和 标签 ， 但 是 有 效 / 清 空 标 
志 由 两 个 标志 位 取代 ， 即 表示 无 效 、 修 改 、 独 占 或 共享 4 个 状态 。 

复位 时 ， 所 有 缓存 行 被 设置 为 无 效 ， 这 意味 着 缓存 行 中 任何 数据 都 是 不 正确 的 。 

读者 可 以 参考 框 4. 10 中 给 出 的 MESI 协议 在 双 处 理 器 共享 存储 系统 中 运行 的 例子 。 
MESI 协议 示例 

为 了 说 明 MESI 协议 在 双 处 理 器 共享 存储 系统 中 的 运作 ， 我 们 将 通过 典型 事件 序列 来 跟踪 系统 状态 。 
CPU 被 命名 为 A 和 B， 它 们 的 cache 从 复位 开始 (所 以 所 有 条 目 从 状态 I 开始 ) 。 

CPU A 从 共享 内 存 中 位 置 X 读 取 。 由 于 cache 全 部 无 效 ， 因 此 这 将 是 一 个 读 缺 失 并 导致 值 从 主 存储 
器 中 检索 。cache B 将 侦 听 总 线 ， 发 现 有 数据 传送 并 从 内 部 看 到 自己 没有 缓存 位 置 X， 因 此 它 将 保持 安 
静 。 观 察 状态 图 并 应 用 于 cache A，I 状 态 没 有 侦 听 信息 的 读 缺 失 将 会 导致 进入 了 状态 。 

想象 一 下 ，CPU B 随后 也 读 取 位 置 X， 而 cache B 中 没有 内 容 ， 因 此 读 缺 失 。cache B 从 共享 RAM 中 
读 取 值 ， 而 cache A 侦 听 总 线 。cache A 从 内 部 看 到 自己 也 缓存 了 位 置 X， 于 是 cache A 在 侦 听 总 线 上 告知 
cache B 它 保持 着 位 置 X。cache B 将 继续 读 取 值 ， 但 由 于 它 是 共享 读 取 ， 状 态 图 告诉 我 们 沿 着 从 状态 工 到 
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状态 S 的 读 缺 失 (S) 线 走 。 同 样 ，cache A 内 部 侦 听 读 命中 ， 所 以 缓存 行 保 持 位 置 X 的 状态 从 下 移动 到 
S。 这 时 ， 两 个 cache 都 保持 有 位 置 X 并 且 两 个 都 处 于 共享 状态 。 

接 下 来 ， 想 象 CPU A 向 位 置 X 进行 写 入 。 根 据 直 写 策 略 (任何 写 操 作 都 直接 到 主 存 储 器 ) ，cache A 
意识 到 写 命中 ， 行 状态 从 S 移 动 至 玉 。cache B 侦 听 单元 正在 监视 总 线 并 确定 一 个 侦 听 写 命 中 。 由 于 它 也 
在 状态 $5， 这 会 使 它 转 换 到 状态 I， 也 就 意味 着 无 效 。 这 是 正确 的 ， 因 为 它 缓 存 的 值 已 经 不 是 最 新 的 值 ， 
最 新 的 值 在 其 他 cache 中 并 且 现 在 返回 到 了 主 存储 器 。 


4.5 协 处 理 器 

某 些 计算 任务 用 硬件 可 以 更 好 地 执行 ， 这 种 硬件 不 属于 标准 CPU 的 范畴 。 一 个 常见 的 例 
子 就 是 浮 点 数 的 处 理 ， 使 用 专用 的 浮 点 运算 单元 通常 比 用 CPU 更 快 (早期 的 个 人 计算 机 硬件 
中 不 提供 浮 点 运算 : 一 些 读者 可 能 还 记得 Intel 80386PC 母 板 上 的 插座 一 一 用 于 接 插 Intel 80387 
浮 点 协 处 理 器 和 其 他 替代 品 ) 。 事 实 上 ， 从 最 早 的 计算 机 开始 ， 就 有 专用 硬件 用 来 执行 某 些 特 
定 的 功能 ， 它 与 CPU 是 分 开 的 ， 而 CPU 负责 执行 通用 计算 。 

除 浮 点 数 处 理 之 外 ， 也 许 最 突出 的 例子 是 Intel 的 MMX 扩展 到 奔腾 处 理 器 的 范畴 ， 后 来 继 
续 扩 展 并 命名 为 SIMD 流 指 令 扩 展 (Streaming SIMD Extension，SSE) 。 然 而 ， 还 有 其 他 的 一 一 
许多 现代 骨 和 人 式 处 理 器 包含 专用 协 处 理 器 单元 来 执行 特定 的 功能 ， 例 如 加 密 、 音 频 或 视频 处 
理 ， 甚 至 专用 的 输入 输出 处 理 。 

我 们 将 在 4.7 节 研 究 MMX 和 SSE, 但 就 目前 而 言 ， 我 们 将 考虑 最 突出 的 例子 一 一 浮 点 运 
算 单元 。 这 是 每 一 个 现代 台式 计算 机 都 会 包含 的 部 分 ， 内 置 在 它们 的 CPU 中 ,但 在 为 垦 入 式 
系统 设计 的 处 理 器 中 会 较 少 看 到 它们 。 


4.6 浮 点 运算 单元 

我 们 已 在 第 2 章 讲 过 ， 浮 点 数 通过 使 用 尾数 和 指数 来 为 特定 的 基本 系统 传输 数字 信息 。 正 
如 前 面 介绍 的 ， 正 EE754 标准 浮 点 数 是 目前 最 常用 的 表示 方法 ， 在 计算 机 行业 内 广泛 应 用 。 

由 于 这 种 标准 化 ， 实 现 这 个 标准 的 设备 并 不 像 使 用 标准 的 计算 机 系统 的 其 他 部 分 那样 变化 
频繁 。 例 如 ，Intel 80486 “和 奔腾 处 理 器 包含 一 个 片上 FPU， 它 与 80387 一 样 ， 从 20 世纪 80 年 
代 中 期 其 原始 版 本 出 现 开 始 ， 基 本 上 保持 不 变 。 它 是 80386 的 独立 的 协 处 理 器 芯片 。 那 时 ， 腾 
台式 PC 可 以 选择 带 或 不 带 板 上 FPU， 对 于 大 多 数 没有 FPU 的 计算 机 ， 用 户 可 以 通过 购买 芯片 
并 把 它 插 到 主板 的 空 槽 上 来 对 计算 机 进行 升级 ， 正 如 前 面 介 绍 过 的 那样 。 

不 支持 浮 点 运算 是 有 原因 的 (现在 仍然 是 ) ， 这 要 归 因 于 FPU 的 性 质 : 硅 片面 积 大 并 且 耗 
电 多 。 特 别 是 对 骨 入 式 和 电池 供电 系统 ， 使 用 没有 浮 点 运算 的 处 理 器 往往 是 首选 ， 所 有 算法 用 
定点 运算 实现 ， 或 者 使 用 更 高 级 的 语言 以 及 借用 软件 浮 点 模拟 器 实现 。 

使 用 FPU 时 ，CPU 把 操作 数 加 载 到 主 CPU 和 FPU 共享 的 特殊 寄存 器 里 〈 它 或 者 是 一 个 单 
独 的 芯片 ， 或 者 在 同一 硅 片 上 ) ， 通 过 发 送 一 条 特别 的 指令 激活 FPU。 然 后 FPU 从 共享 寄存 器 
读 取 并 开始 处 理 所 需 指令 。 一 段 时 间 后 ，FPU 返回 结果 到 特殊 寄存 器 并 通过 中 断 通知 CPU 进 
程 已 经 完成 。 许 多 现代 处 理 器 在 执行 流水 线 中 都 包含 FPU， 因 此 不 需要 额外 的 中 断 (流水 线 将 
在 5.2 节 介 绍 )。 

FPU 通常 不 能 直接 访问 内 存 中 或 者 共享 总 线 上 的 数据 ， 它 只 能 作为 一 个 从 处 理 器 ， 去 操作 
那些 由 主 CPU 加 载 到 通用 共享 寄存 器 中 的 数据 。 这 些 寄 存 器 足够 长 ， 可 以 容纳 多 个 IEEE754 
双 精 度数 ， 虽 然 在 FPU 内 部 使 用 了 扩展 的 中 间 格 式 〈 见 2.9.3 节 )。 

在 更 近 的 586 及 以 上 级 别 的 处 理 器 中 ， 这 些 寄存 器 与 MMX 单元 或 其 派生 的 SSE 家 族 〈 见 





加 某 些 486 系列 处 理 器 没有 浮 点 运算 能 力 ， 尤其 是 那些 面向 低 功 耗 应 用 的 处 理 器 。 
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4.7 节 ) 共享 ， 这 意味 着 主 CPU 加 载 数据 到 寄存 器 ， 然 后 激活 MMX 或 者 FPU。 所 以 在 许多 
586 级 别 的 处 理 器 中 ，MMX 和 浮 点 运算 单元 不 能 一 起 使 用 ， 程 序 员 在 任何 特定 的 情况 下 不 得 不 
选择 两 个 模式 中 的 一 种 。 

FFU 或 MMX 的 局 限 性 推动 了 AMD 3DNow! 的 发 展 。 这 一 包含 21 条 新 指令 的 扩展 能 有 效 
地 让 AMD 处 理 器 在 同一 代码 块 中 交错 使 用 浮 点 指令 和 MMX 指令， 而 这 促使 Intel 公司 开发 出 
了 SSE， 我 们 将 在 4.7 节 把 它 作 为 协 处 理 器 的 男 一 个 例子 做 进一步 的 讨论 。ARM FPU 是 一 种 替 
代 方 法 ， 框 4. 11 中 介绍 了 它 的 发 展 。 

到 二 一 个 蔡 代 方法 : ARM 处 理 器 上 的 FPU 

注意 ARM 工程 师 采 用 的 另 一 种 浮 点 运算 单元 设计 方法 ，Steve Furber 在 ARM System Architecture 一 书 
中 这 样 描述 : 

工程 师 们 首先 调查 大 量 的 常用 软件 以 找到 什么 类 型 的 浮 点 运算 最 常 使 用 。 采 用 RISC 设计 方法 ， 他 们 
在 硅 片 上 用 这 些 最 常见 的 指令 设计 了 FPAI10 这 一 经 典 ARM3 设备 的 浮 点 协 处 理 器 。 

FPA10 有 4 个 阶段 的 流水 线 ， 使 它 在 每 个 周期 处 理 操作 数 并 同时 执行 4 个 计算 。 硅 片上 没有 应 用 不 








太 常 见 的 指令 一 一 这 些 指 令 要 么 完全 用 于 ARM 上 的 定点 软件 的 计算 ， 要 么 是 部 分 用 于 软件 的 计算 ， 部 分 
包含 在 FPA10 指令 中 。 
浮 点 仿真 


正如 我 们 看 到 的 那样 ，FPU 是 一 个 可 以 操作 浮 点 数 的 设备 。 通 常情 况 下 ， 它 提供 标准 的 算 
术 、 逻 辑 、 比 较 以 及 乘法 功能 ， 通 常 也 支持 除法 及 其 他 更 专门 的 操作 〈 如 四 售 五 人 ) 。 大 多 数 
FPU 符合 下 EE754 标准 ， 它 定义 了 它们 的 操作 、 精 度 等 。 

每 当 高 级 语言 程序 员 在 程序 中 使 用 浮 点 数据 类 型 时 ， 就 会 访问 FPU。 例 如， 在 C 程序 语言 
中 ， 这 些 类 型 几乎 全 是 那些 我 们 已 经 在 3. 4. 1 节 定 义 过 的 。 

。 float 〈 单 精度 ) 一 一 一 个 32 位 单 精 度 浮 点 数 包括 符号 位 、8 位 指数 以 及 23 位 尾数 。 

。 double ( 双 精 度 ) 一 一 一 个 64 位 双 精 度 浮 点 数 包括 符号 位 、11 位 指数 以 及 52 位 尾数 。 

在 C 语言 中 有 一 个 进一步 的 浮 点 数据 类 型 ， 拥 有 比 双 精度 类 型 更 高 的 精度 ， 那 就 是 long 
double。 然 而 ，long double 精度 似乎 不 太 标准 〈 正 如 3.4.1 节 提 到 的 那样 ) ， 它 的 范围 分 布 从 与 
double 相同 ， 到 IEEE754 扩展 中 间 格 式 ( 见 2.9.3 节 )， 最 多 能 达到 真正 的 四 精度 数 。 

然而 ， 尽 管 “ 浮 点 ”通常 意味 着 要 遵守 正 EE754 标准 ， 但 这 也 不 是 必需 的 。 如 3.4.5.2 节 
所 述 ， 这 只 有 当 底 层 提 供 的 硬件 与 下 EE754 兼容 时 才 支 持 。 在 一 些 功 耗 和 尺寸 成 本 更 高 的 舱 和 人 
式 系统 中 ， 设 计 师 做 出 了 务实 的 选择 ， 用 略 低 于 IEEFE754 的 精度 来 提供 浮 点 运算 。 从 程序 员 的 
角度 来 看 ，float 和 double 数据 类 型 仍然 存在 ， 但 使 用 它们 进行 计算 的 准确 性 可 能 有 所 不 同 。 

在 没有 支持 浮 点 运算 的 硬件 的 情况 下 ， 或 者 说 在 没有 FPU 时 ， 指 定 浮 点 操作 的 指令 将 被 
CPU 挑 拣 出 来 ， 引 起 中 断 〈 或 捕获 ， 见 3.4.5 节 ) 并 由 专门 的 代码 来 处 理 。 代 替 FPU 的 代码 
称 为 浮 点 仿真 器 (FPE) 。 

很 多 时 候 ，FPE 代码 在 精度 方面 是 IEEE754 的 替代 品 。 使 用 多 个 定点 指令 计算 IEEE754 操 
作 会 花费 非常 多 的 时 间 ， 这 是 一 个 速度 和 精确 度 之 间 的 权衡 。 通 常设 计 者 更 热衷 于 速度 。 

这 种 权衡 的 男 一 个 方面 在 图 4-20 中 进行 了 说 明 ， 其 中 显示 了 有 硬件 FPU 的 处 理 器 和 一 个 
定点 处 理 器 。 在 两 者 上 执行 相同 的 代码 。 在 所 有 其 他 因素 都 一 样 〈 即 在 第 一 种 情况 下 两 者 之 间 
的 唯一 区 别 是 FPU 协 处 理 器 存在 与 否 ) 的 理想 情况 下 ， 有 FPU 的 处 理 器 可 以 把 浮 点 操作 送 给 
FPU， 它 进行 操作 时 耗 能 显著 ， 而 主 CPU 执行 其 他 无 关 的 功能 。 一 旦 完成 浮 点 运算 ， 结 果 将 被 
传 回 CPU ， 操 作 继 续 进 行 。 

在 定点 处 理 器 的 情况 下 ，FPE 代码 仿真 浮 点 运算 运行 在 主 CPU 上 。 由 于 这 种 情况 下 没有 协 处 
理 器 ， 浮 点 代码 就 不 可 能 与 其 他 代码 并 行 执行 。 显 然 ， 程 序 将 执行 得 更 慢 ， 即 使 FPE 代码 可 以 像 
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FPU 那样 快 。 不 过 ， 通 常 FPE 是 分 儿 次 执行 的 ， 可 能 10 次 或 者 更 多 ， 比 在 FPU 上 执行 得 慢 。 





code 1 code2 。 code 3 





时 间 
图 4-20 两 种 设计 的 权衡 示意 图 : 在 专用 硬件 FPU 上 执行 浮 点 运算 ,而 定点 代码 继续 在 主 CPU 上 执行 

(上 方 的 图 ); 使 用 FPE 代码 执行 浮 点 运算 ， 它 耗 时 更 长 ， 但 耗 能 更 低 (下 方 的 图 ) 

在 能 量 消耗 方面 (需要 考虑 电池 寿命 的 便携 式 电 子 产 品 中 的 一 个 重要 度量 )， 能 量 
(功率 x 时 间 ) 在 图 中 阴影 部 分 显示 。 虽 然 FPU 比 定点 CPU 耗 能 明显 要 多 , 但 它 可 以 在 更 短 的 
时 间 内 完成 “>， 因 此 它 很 可 能 比 浮 点 仿真 的 能 量 效率 更 高 。 当 然 ， 正 如 我 们 前 面 所 介绍 的 ， 在 
这 种 情况 下 系统 工程 师 可 以 决定 采用 低 精度 浮 点 程序 以 加 速 计算 。 对 程序 员 来 说 更 可 取 的 是 避 
免 使 用 浮 点 运算 ， 这 往往 是 一 个 租 入 式 系 统 开发 者 的 目标 。 程 序 员 可 以 考虑 使 用 长 整数 或 者 小 
数 (Q 格式 ) 表示 法 编程 ( 见 2.3.7 节 )。 


4.7 SIMD 流 指令 扩展 和 多 媒体 扩展 


多 媒体 扩展 (multimedia extensions，MMX ) 是 Intel 给 奔腾 处 理 器 的 硬件 多 媒体 协 处 理 器 
设置 的 名 称 。MMX 单元 实际 上 是 一 个 SIMD ( 单 指令 多 数据 ) 机 ， 正 如 2.1.1 节 定 义 过 的 那 
样 。 在 使 用 时 ， 一 组 数据 被 加 载 到 MMX 寄存 器 组 ， 然 后 一 个 MMX 指令 可 以 并 行 地 在 每 个 寄 
存 器 上 操作 数据 。 这 种 处 理 的 一 个 例子 是 两 个 地 方 的 8 个 整数 同时 右 移 ， 或 者 4 个 寄存 器 的 值 
与 另外 4 个 寄存 器 值 相 加 ， 并 且 前 4 个 寄存 器 保存 计算 结果 。 这 一 主题 有 许多 变化 ， 但 重点 在 
于 多 个 独立 的 操作 由 单一 的 指令 引发 ， 并 同时 发 生 。 

Intel 发 布 了 MMX 后 ， 竞 争 对 手 Cyrix 和 AMD 很 快 为 它们 的 设备 提供 了 类 似 的 加 速 器 ， 而 
其 他 厂家 ， 如 ARM 和 Sun 也 为 自己 的 RISC CPU 建造 了 定制 设计 的 同等 设备 。 这 些 硬件 设备 是 
片上 提供 的 ， 而 不 是 作为 外 部 协 处 理 器 ， 这 源 于 对 多 媒体 数据 的 处 理 往往 涉及 在 大 量 数 据 上 重 
复 应 用 相对 简单 的 算术 操作 这 一 考虑 。 


4.7.1 MMX 


关于 MMX 的 一 个 例子 是 MMX 技术 用 来 适应 显示 屏 上 一 个 区 域 的 色彩 调整 。 如 果 屏 幕 上 
显示 数据 的 每 个 像素 是 一 个 字 节 或 者 字 ,， 那 么 调整 颜色 也 许 仅仅 是 给 每 个 字 添 加 一 个 固定 值 ， 或 
者 可 能 是 一 个 逻辑 掩 码 操作 。 无 论 确 切 的 操作 是 什么 ,大 量 的 像素 必须 重复 同样 的 操作 ， 可 能 是 
1280 x 1024 像素 或 者 更 多 。 如 果 在 标准 CPU 上 执行 ， 将 有 1280 x 1024 =1 310 720 个 重复 累加 。 





日 ”这 是 假设 当 FPU 不 再 计算 时 保持 关闭 ， 因 而 不 产生 功 耗 。 遗 憾 的 是 ， 实 际 中 这 个 假设 往往 不 能 实现 。 
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加 入 了 MMX 单元 ，CPU 就 可 以 把 数据 块 加 载 到 MMX 单元 ,然后 同时 对 数据 块 里 的 所 有 
数据 项 执行 算术 运算 。 同 时 ，CPU 本 身 是 空闲 的 ， 可 以 执行 其 他 操作 。 很 容易 看 到 如 果 MMX 
单元 有 16 个 数据 项 ， 那 么 处 理 所 有 像素 所 需 的 时 间 可 以 减少 到 1/16 左右 。 


4.7.2 MMX 实现 


对 MMX 扩展 的 论证 是 有 说 服 力 的 ， 尤 其 鉴于 在 MMX 发 展 的 几 年 里 个 人 计算 机 对 多 媒体 
处 理 需 求 的 增长 。 然 而 ， 相 关 的 问题 也 被 担 了 出 来 ， 那 就 是 如 何 找到 最 好 的 实现 这 种 处 理 的 方 
式 以 及 支持 什么 类 型 的 处 理 。 

在 Intel 奔腾 处 理 器 中 ， 问 题 的 实现 主要 在 于 Intel 需要 新 的 和 奔腾 处 理 右 向 后 兼容 ， 与 早期 
的 8088 以 及 更 早 的 DOS 上 使 用 的 16 位 软件 ， 甚 至 是 与 一 些微 软 Windows 的 现代 版 本 兼容 。 因 
此 ， 通 过 改变 x86 CPU 的 指令 集 来 扩大 它 的 功能 的 可 能 性 非常 小 ， 和 否则 新 的 软件 不 能 在 旧 机 器 
上 运行 ， 这 会 令 消费 者 不 高 兴 (这 种 兼容 性 改变 需要 逐步 完成 ， 获 得 消费 者 的 理解 需要 时 
间 ) 。 此 外 ， 从 奔腾 版 本 到 下 一 个 版 本 ， 寄 存 器 数目 不 能 突然 增加 ， 因 为 这 会 使 日 软件 中 使 用 
的 上 下 文保 存 和 恢复 过 程 无 效 。 

不 过 ，Intel 的 工程 师 发 现 了 两 个 聪明 的 方法 来 实现 他 们 的 目标 。 第 一 个 方法 是 给 奔腾 一 个 
额外 的 指令 ， 可 将 处 理 器 设 在 MMX 模式 (他们 发 布 了 简单 的 代码 ， 让 程序 员 首 先 检 查 MMX 
的 性 能 ， 然 后 在 有 MMX 的 机 器 上 运行 一 个 代码 版 本 ， 而 在 没有 MMX 的 机 器 上 运行 另 一 个 ) 。 
在 MMX 模式 下 ， 额 外 的 57 条 新 指令 对 MMX 处 理 可 用 。 旧 软件 不 能 使 用 这 种 模式 ， 因 此 不 会 
遇 到 额外 的 指令 。 第 二 个 方法 是 重复 使 用 浮 点 运算 单元 寄存 器 来 保存 MMX 数据 。 在 正常 模式 
下 ,这 些 寄存 器 由 FPU 使 用 ,但 在 MMX 模式 下 ， 它 们 被 用 于 MMX 处 理 。 

遗憾 的 是 ， 程 序 员 并 不 采用 MMX 全 集 。 也 有 一 些 针 对 选择 MMX 模式 完全 去 除 浮 点 运算 
功能 的 批评 (在 4.6 节 曾 提 到 )。 最 终 ， 源 于 SSE 的 灵感 ， 促 进 了 AMD 3DNow! 的 产生 。 然 
而 ， 在 讨论 SSE ( 见 4.7.4 节 ) 之 前 ， 让 我 们 来 看 看 这 些 系 统一 般 情况 下 是 如 何 工 作 的 ， 先 从 
MMX 开始 。 

如 图 4-21 所 示 为 MMX 单元 的 逻辑 结构 ， 包 括 它 的 
8 个 寄存 器 (不 过 需要 指出 这 个 图 是 高 度 形式 化 的 一 一 
真实 的 MMX 比 画 在 这 里 的 要 复杂 得 多 ) 。 注 意 总 线 从 8 
个 ALU 块 的 输出 反馈 回 寄存 器 。 这 是 MMX 单元 内 部 结 
构 的 简单 表示 ， 但 足以 说 明 每 个 寄存 器 路 径 的 并 行 性 。 
每 一 行 都 是 一 个 单独 的 总 线 。 

在 MMX 模式 下 ， 有 8 个 64 位 宽 的 寄存 器 (为 什么 
是 64 位 ? 还 记得 表示 双 精 度 浮 点 数 需 要 64 位 吗 ? 双 精 
度 浮 点 数 在 FPU 模式 下 通常 保存 在 这 些 寄 存 器 中 ) 。 指 
令 是 并 行 执行 的 ， 并 且 除 了 加 载 和 存储 指令 外 ， 指 令 都 





是 在 寄存 器 间 进 行 的 。 图 4-21 具有 MMX 功 : a Intel 
ex a 让 用 2 CPU 的 MMX 盛 让 器 、 
每 个 寄存 器 都 是 位 大 小 ， 已 可 以 容纳 8 字 节 或 4 并 行 功能 单元 (看 起 来 

个 16 位 字 或 2 个 32 位 双 字 或 1 个 64 位 四 字 。 这 些 都 是 像 小 ALU) 以 及 总 线 连 

在 程序 员 的 控制 下 进行 的 ， 为 创建 MMX 代码 带 来 了 极 接 示 意图 

大 的 灵活 性 。 


它 支持 算术 、 逻 辑 、 比 较 和 转换 操作 ， 这 些 操作 可 以 应 用 到 传输 寄存 器 内 的 任何 已 
知 位 宽 的 数据 。 当 然 ， 加 载 正确 大 小 的 数据 以 及 选择 合适 的 操作 应 用 于 该 数据 是 程序 员 
的 责任 。 
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4.7.3 MMX 的 使 用 


为 了 在 配置 合适 的 奔腾 处 理 器 上 使 用 MMX 的 功能 ， 首 先 要 检查 CPU 是 否 可 以 进入 MMX 
模式 (有 一 个 简单 的 向 后 兼容 机 制 可 以 做 到 这 一 点 )。 如 果 可 以 ，MMX 模式 处 理 就 可 以 继续 ; 
否则 ， 必 须 借助 CPU 的 能 力 提供 执行 相同 功能 的 代码 。 显 然 ， 这 会 慢 很 多 ,但 在 每 一 个 可 移 
植 的 程序 中 ， 向 后 兼容 性 都 是 需要 的 。 

然而 ， 对 于 特殊 的 程序 使 用 这 种 技术 所 获得 的 速度 提升 是 很 显著 的 ， 现 实生 活 中 图 像 处 理 
对 MMX 能 力 的 测试 表明 : 在 Linux 环境 下 ，MMX 优化 代码 比 测试 软件 中 没有 MMX 代码 要 快 
至 少 14 倍 。 


4.7.4 SIMD 流 指令 扩展 


SSE “实际 上 是 Intel 对 x86 指令 集 上 单 指令 流 多 数据 流 (SIMD) 扩展 的 专 有 命名 ， 最 初 于 
1997 年 推出 。AMD 推出 了 它们 的 硬件 扩展 ， 并 命名 为 3DNow!， 在 Intel 只 支持 整数 的 硬件 上 
增加 了 浮 点 运算 的 功能 。 互 不 示弱 ，Intel 各 种 SIMD 流 指 令 扩展 与 AMD 的 3DNow! 之 间 的 斗 
争 愈演愈烈 

SSE 为 SIMD 的 数据 处 理 提供 了 70 条 新 指令 以 及 8 个 新 的 128 位 寄存 器 23。 这 些 寄存 器 可 
以 存放 一 般 的 整数 值 ， 现 在 也 允许 使 用 浮 点 数 : 

。 4 个 32 位 整数 。 

。 8 个 16 位 短 整数 。 

。 16 字 节 或 字符 。 

。 2 个 64 位 双 精 度 浮 点 数 。 

。 4 个 32 位 单 精度 浮 点 数 。 

SSE 实际 上 已 经 有 了 相当 大 的 变化 ， 从 最 初 的 版 本 到 SSE2、SSE3、SSE4 以 及 最 近 的 
SSE5 ， 每 次 更 迭 都 带 来 需要 程序 员 学 习 的 新 功能 、 新 指令 。 有 趣 的 是 ， 从 SSE4 之 后 ，Intel 就 
不 再 继续 支持 使 用 旧 的 MMX 寄存 器 了 。 

SSE4 指令 集 引 入 了 一 些 快 速 的 字符 串 处 理 操 作 ， 也 有 许多 浮 点 操作 ， 例 如 并 行 乘法 、 内 
积 、 四 舍 五 人 等 。 现 在 Intel 和 AMD 的 版 本 之 间 也 有 一 定 程 度 的 兼容 性 (可 能 比 之 前 x86 处 理 
器 时 代 兼 容 更 多 ) ,但 是 功能 的 不 断 革 新 ， 加 上 一 些 积极 的 营销 策略 ， 使 得 对 这 两 个 x86 式 处 
理 器 功能 的 直接 比较 变 得 十 分 困难 。 


4.7.5 使 用 SSE 和 MMX 


有 这 么 多 的 版 本 ， 在 不 同 的 CPU 之 间 、 制 造 商 之 间 有 不 同 的 兼容 性 ， 致 使 软件 工具 的 
发 展 往往 落后 于 硬件 。 许 多 编译 器 默认 不 支持 这 些 协 处 理 器 ， 或 充其量 在 可 能 的 硬件 功能 
范围 内 提供 少量 的 支持 (宁愿 限定 只 支持 最 常用 的 选项 ) 。 虽 然 近 些 年 情况 有 显著 的 改善 ， 
尤其 Intel 自己 提供 了 可 以 大 概 支持 这 些 扩展 的 编译 器 ， 但 编程 工具 并 不 倾向 于 充分 利用 这 
个 专用 硬件 。 

此 外 ， 要 为 不 同 的 处 理 器 写 几 个 专用 的 代码 版 本 这 一 需求 ， 意 味 着 SIMD 扩展 指令 的 使 用 
往往 只 限于 专业 软件 实例 ， 而 不 是 商业 操作 系统 和 应 用 的 一 般 发 行 。 然 而 ， 它 们 的 存在 和 使 
用 ,尤其 是 在 台式 机 和 服务 器 中 ， 拥 有 最 高 的 处 理性 能 。 





加 英文 版 中 MMX 有 误 ， 应 为 SSE。 译 者 注 
加 在 64 位 模式 下 会 增加 到 16 个 128 位 寄存 器 。 
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4.8 姥 入 式 系统 中 的 协 处 理 


现在 很 少 有 凡人 式 系统 使 用 x86 式 处 理 器 ， 尽 管 也 有 低 功 耗 的 变形 ， 例 如 Atom 处 理 器 。 
到 目前 为 止 ， 占 比例 最 大 的 是 基于 ARM 的 处 理 器 或 者 使 用 类 似 的 低 功 耗 RISC CPU。 即 使 是 
x86 处 理 器 ， 也 很 少 有 完整 的 SSE 功能 (因为 这 些 协 处 理 器 以 其 高 耗 能 而 著称 ) 。 然 而 ， 它 们 
确实 在 台式 机 和 服务 器 系统 应 用 上 有 优势 ， 原 因 在 于 与 台式 机 系统 可 以 运行 任何 软件 相 比 ， 许 
多 艇 人 式 系统 只 运行 控制 或 专用 软件 。 台 式 机 系统 需要 软件 向 后 兼容 (如 在 根本 没有 扩展 的 情 
况 下 ， 对 SSE 的 代码 、MMX 的 代码 、SSE4 的 代码 以 及 裸 x86 代码 的 要 求 )， 而 在 垦 入 式 系 统 
中 ,程序 员 事 先 确 切 地 知道 哪些 硬件 可 用 并 能 适当 地 开发 自己 的 软件 。 
反 过 来 也 是 如 此 一 一 了 解 要 运行 什么 软件 也 给 修改 或 创建 自 定 义 硬件 提供 了 机 会 。 作 为 这 
个 过 程 的 一 个 例证 ,在 4.6 节 我 们 介绍 过 FPA10， 它 是 主要 的 ARM 浮 点 协 处 理 器 ， 它 的 设计 
基于 对 最 常见 软件 需求 的 分 析 。 
除了 已 经 提 到 的 FPU 和 MMX/SSE 外 ,在 戏 入 式 系统 中 还 可 以 看 到 许多 其 他 的 协 处 理 需 。 
考虑 下 面 的 ARM 特定 的 协 处 理 器 : 
e Jazelle 一 一 这 个 名 字 似 乎 是 将 Java 语言 中 的 “J” 加 到 Gazelle (羚羊 ) 上 ， 让 人 联想 
到 迅速 而 敏捷 地 执行 Java 代码 的 情景 ， 而 这 正 是 目的 所 在 。 设 计 Jazelle 的 ARM 工程 师 
们 创建 了 一 个 硬件 单元 ， 能 够 不 需要 中 断 而 直接 处 理 许多 Java 指令 ( 字 节 码 )， 这 带 
来 了 速度 和 效率 方面 的 改进 。Java 的 分 支 (BXJ) 指令 进入 Jazelle 处 理 ， 使 得 CPU 能 
自然 地 执行 大 多 数 常见 的 字 节 码 (并 捕获 其 余部 分 以 在 优化 的 软件 程序 中 执行 ) 。 
。 NEON， 先 进 的 SIMD 一 一 与 Intel 的 SSE 类 似 ， 这 是 一 个 拥有 非常 完备 指令 集 的 64 位 
或 128 位 SIMD 扩展 ， 它 能 够 并 行 执行 成 批 的 整数 和 浮 点 数 操作 。 
e VFP (Vector Floating Point， 向 量 浮 点 ) 一 一 ARM 处 理 器 的 向 量 协 处 理 器 ， 增 强 了 浮 
点 运算 的 功能 。 它 用 于 矩阵 和 向 量 计算 ， 即 对 数据 数组 的 重复 序列 操作 。 
还 记得 在 3. 2.6 节 我 们 讨论 过 的 RISC 和 CISC 处 理 器 的 不 同 原理 吗 ? CISC 处 理 器 在 进化 的 
过 程 中 被 描述 为 腔 肿 而 笨重 ， 它 把 越 来 越 多 的 功能 包含 到 单个 CPU 指令 中 。 相 比 之 下 ，RISC 
精简 而 快捷 。 
RISC 指令 往往 很 简单 ， 但 很 快速 ， 即 使 实现 一 些 功 能 需要 用 到 更 多 指令 ， 这些 指令 也 可 
以 执行 得 更 快 ， 从 而 使 整体 性 能 与 CISC 方法 相 比 有 所 提升 。 然 而 ， 协 处 理 器 的 使 用 使 得 RISC 
处 理 器 (小 、 精 简 、 快 速 ) 把 特定 的 计算 任务 交 给 单独 的 处 理 单元 。 因 此 ，CISC 处 理 器 提供 
的 一 些 特 定 于 应 用 的 指令 也 可 以 交 给 RISC 协 处 理 器 单元 来 处 理 。 
回想 起 Intel 为 早期 MMX 使 用 的 双 模 式 ， 一 个 进一步 的 改进 涉及 可 重 构 协 处 理 器 。 它 允许 
调整 协 处 理 器 使 用 的 硅 资 源 以 适应 任何 特定 时 间 的 计算 需要 。 显 而 易 见 ， 可 重 构 是 有 代价 
的 一 一 它 将 耗费 时 间 和 能 耗 。 然 而 ， 一 些 复杂 运算 对 快速 处 理 的 需求 很 容易 使 这 些 代价 物 有 
所 值 。 
对 舱 入 式 系统 设计 者 来 说 ， 可 能 最 好 的 例子 是 现场 可 编程 门 阵列 (FPGA)。FPGA 中 的 
“ 软 核 ”处 理 器 是 用 像 Verilog 这 样 的 高 级 硬件 描述 语言 编写 的 。 现 在 我 们 需要 考虑 的 FPCA 的 
首要 特征 之 一 是 它们 的 可 重 构 性 。 已 有 的 许多 免费 的 和 商业 的 软 核实 现 了 协 处 理 器 接口 ， 一 些 
研究 人 员 已 经 尝试 把 可 重 构 处 理 单元 附加 到 它们 之 上 。 人 们 很 可 能 会 继续 探索 这 些 方法 对 于 组 
入 式 系统 的 重要 性 ， 并 且 会 越 来 越 多 地 采用 它们 。7. 14 节 中 将 进一步 介绍 这 些 设备 。 


4.9 小 结 
本 章 研 究 了 现在 的 通用 微 处 理 器 的 一 般 内 部 元 素 ， 包 括 通过 内 部 总 线 与 ALU、FPU 或 其 他 
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协 处 理 器 和 加 速 单元 等 不 同 的 功能 单元 之 间 传 输 数据 的 方式 。 

系统 内 有 内 存 管理 单元 和 cache， 可 以 把 它们 看 作 在 处 理 器 内 核 和 外 部 存储 系统 之 间 的 地 
址 与 数据 总 线 上 的 过 渡 区 。 通 过 预测 未 来 的 内 存 召 回 模式 以 及 存储 过 去 的 一 些 与 所 预测 的 未 来 
访问 相 匹 配 的 内 存 访问 ，cache 可 以 提升 平均 内 存 访问 时 的 速度 。 同 时 ， 内 存 管 理 单元 扮演 两 
个 重要 的 角色 : 第 一 个 是 允许 使 用 虚拟 内 存 ， 这 扩展 了 处 理 器 能 使 用 的 地 址 范围 和 存储 空间 ; 
第 二 个 是 允许 定义 和 使 用 内 存 段 和 页 一 一 一 个 很 重要 的 优势 就 是 运行 中 进程 间 的 内 存 保护 〈 阻 
止 某 些 进程 覆盖 其 他 进程 或 内 核 的 私有 存储 ， 从 而 防止 或 者 至 少 是 减少 骨 溃 的 可 能 性 ) 。 但 是 
使 用 虚拟 内 存 需 要 付出 代价 : 它 往往 会 减少 平均 内 存 访 问 时 间 。 

本 章 内 容 是 现代 CPU 中 通常 会 实现 的 标准 功能 单元 和 通用 处 理 器 的 功能 。 在 第 5 章 中 ,我 
们 将 把 注意 力 转 向 性 能 改善 一 一 一 些 常 见 的 加 速 技术 。 我 们 将 会 看 到 ,在 CPU 制造 商 一 味 追 
求 速度 越 来 越 快 或 功 耗 越 来 越 低 〈 这 两 个 特点 很 少 同 时 具备 ) 的 过 程 中 ， 出 现 了 一 些 有 趣 的 
方法 ， 并 且 必 将 得 到 应 用 。 


思考 题 
4.1 4.2.2 节 谈 到 了 ALU 设计 ， 如 果 每 个 逻辑 门 的 输入 和 输出 之 间 有 10ns 的 传输 延迟 ,那么 ALU 的 工 
作 频 率 最 大 能 达到 多 少 ? 
4.2 ”参照 问题 4.1 考虑 1 位 的 ALU: 
a. 4 个 这 样 的 ALU 如 何 结 合成 一 个 4 位 的 ALU (针对 无 符号 数 )? 
b. 要 处 理 有 符号 补 码 ， 你 将 如 何 修改 设计 ? 
4.3 下 面 的 伪 代 码 段 在 一 个 RISC 处 理 器 上 执行 : 
lo0op =051 
read X from memory address 0 
read Y from memory address i 
2Z=X+Y 
write 2 to memory address i+1 
该 处 理 器 需要 一 个 周期 来 完成 所 有 内 部 操作 (包括 cache 访问 ) 。 从 cache 把 数据 保存 到 RAM 
需要 4 个 周期 从 RAM 加 载 数据 到 cache 需要 4 个 周期 (加 上 1 个 周期 继续 从 cache 到 CPU ) 。 
假设 该 系统 采用 直接 相 联 cache， 初 始 化 为 空 。 如 果 cache 使 用 下 面 的 策略 ， 此 段 代码 需要 多 少 
个 周期 ? 
a. 写 回 。 
b. 无 写 分 配 的 直 写 (WINWA)。 
c 有 写 分 配 的 直 写 (WTWA)。 
4.4 ”你 有 一 台 小 型 的 汉 : 诺 依 曼 计算 机 ， 它 的 数据 cache 可 以 在 2 路 组 关联 和 直接 映射 之 间 切 换 。 它 有 
512 个 缓存 行 ， 每 行 可 以 容纳 一 个 数据 字 ， 所 有 的 数据 传输 以 字 为 单位 。 在 处 理 器 上 运行 如 下 
算法 : 


define data area A from address 0 to 1023 
define data area B from address 1024 to 2047 
set RO=512, Rl=address 0, R2=address 1024 


lp [R1] =RO+RO ;Save to address stored in R1 
[R2] = [R1-1] +[R1] 
R1=R1+1 
R2=R2+1 
RO=R0O-1 
if R0>0 then goto lp 


} 


a. 如 果 系 统 采用 写 回 协 议 ， 哪 一 种 cache 结构 最 好 ? 
b. 写 出 3 种 cache 替换 算法 并 评价 它们 的 硬件 复杂 性 。 
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c. 给 出 的 算法 在 清空 cache 复位 后 运行 并 且 和 迭代 两 次 。 如 果 系 统 采用 使 用 直 写 (和 写 分 配 ) 的 直接 
相 联 cache，CPU 到 cache 之 间 的 传输 需要 10ns，cache 到 RAM 之 间 的 传输 需要 50ns， 回 答 下 面 
的 问题 ， 

i . 命中 率 是 多 少 ? 
站. 两 次 迭代 的 平均 访问 时 间 是 多 少 ? 

重 写 前 一 个 问题 的 算法 以 提高 命中 率 (提示 : 调整 数据 区 定义 ， 而 不 是 循环 代码 ) 。 

一 个 音乐 /照片 设备 使 用 虚拟 内 存 ， 从 而 能 使 CPU 访问 1GiB 的 逻辑 存储 空间 ， 尽 管 系统 只 有 1MiB 

的 RAM。 操作 系统 设置 MMU 的 页 大 小 固定 为 4KiB。 字 节 宽 度 的 RAM 有 20ns 的 访问 时 间 ， 而 硬盘 

受 IDE 接口 限制 以 2.2MiB/s 的 速度 传输 数据 。RISC CPU 使 用 32 位 指令 。 

a. 同时 能 有 多 少 页 停 驻 在 RAM 中 ? 

b. MMU 到 RAM 之 间 的 地 址 总 线 包 含 多 少 连 线 ? 

c. 从 RAM 中 读 每 条 指令 需要 多 长 时 间 ? 

使 用 问题 4. 6 中 的 信息 ， 计 算 从 光盘 到 RAM (或 从 RAM 到 光盘 ) 加 载 一 个 页 需要 多 少时 间 。 使 用 

该 答案 来 确定 CPU 从 被 收回 的 内 存 页 中 检索 一 个 指令 的 两 个 可 能 的 时 间 。 

前 面 问题 中 的 MMU 到 RAM 之 间 的 地 址 总 线 不 够 宽 ， 不 足以 容纳 更 多 的 存储 器 。 写 出 3 种 克服 地 址 

总 线 大 小 限制 以 及 在 物理 接口 上 连接 更 多 存储 器 的 方法 〈 硬件 或 软件 ) 。 

一 个 双 处 理 器 的 机 器 有 一 个 共享 的 存储 块 和 一 条 侦 听 总 线 。 每 个 处 理 器 模块 中 的 写 回 cache 实现 

MESI 协议 ， 所 有 缓存 行 从 无 效 (1) 状态 开始 。 

通过 以 下 序列 跟踪 cache 状态 (X、Y 和 2 不 相等 ) : 

1) CPU1 读 取 RAM 地 址 X。 

2) CPU]1 写 入 地 址 X。 

3) CPU2 读 取 地 址 Y。 

4) CPU1 读 取 地 址 Y。 

5) CPU1 写 入 地 址 Y。 

6) CPU2 读 取 地 址 X。 

7) CPU2 读 取 地 址 Z。 

8) CPU1 写 人 地 址 Z。 

考虑 如 下 框图 ， 在 一 个 三 总 线 CPU 中 连接 了 一 个 ALU 单元 和 3 个 寄存 器 。 假 设 除了 一 个 与 每 个 总 
线 相连 的 接口 以 外 ， 这 个 框图 是 完善 的 ， 并 且 存 储 器 中 数据 传输 比 寄存 器 中 数据 的 转移 慢 很 多 。 
X、Y、Z 是 三 个 存储 位 置 。 





a. 在 图 中 画 箭头 指示 每 个 总 线 连接 中 允许 的 数据 流向 。 

b.X+Y 这 个 操作 的 效率 如 何 ? 

c.X+X 这 个 操作 的 效率 如 何 ? 

d. (X+Y) +Z 这 个 操作 的 效率 如 何 ? 

e. 给 出 另外 一 个 可 以 提高 效率 的 连接 图 。 

给 出 每 个 ALU 单元 都 能 实现 的 两 个 主要 的 算术 操作 和 4 个 基本 的 逻辑 操作 ( 移 位 操作 除外 ) 。 
除了 循环 (rotate) 指令 以 外 ,给 出 在 最 简单 的 CPU 中 都 能 实现 的 3 种 不 同类 型 的 或 者 说 位 移 方向 
不 同 的 操作 。 你 能 解释 为 什么 只 要 求 3 种 类 型 而 不 是 4 种 吗 ? 
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4.14 


根据 框 4. 1 中 的 传输 延迟 的 例子 ， 确 定 8 位 ADD 操作 和 8 位 AND 操作 的 传输 延迟 。 在 各 种 情况 
中 ， 假 设 功能 选择 信号 都 是 正确 的 且 不 变 (这 样 它们 就 不 会 影响 时 序 ) 。 如 果 这 个 ALU 单元 是 单 
周期 的 ， 那 么 这 个 设备 的 最 大 时 钟 速度 是 多 少 ? 

如 果 说 cache 可 以 提高 处 理 速度 ， 那 么 你 能 想 出 制造 商 不 直接 卖 集 成 了 大 量 片上 缓存 块 的 集成 电 
路 的 原因 吗 ? 

一 个 包含 直接 相 联 cache 的 计算 机 系统 ， 它 命中 的 访问 时 间 为 10ns， 未 命中 的 访问 时 间 为 120ns。 
当 命中 率 为 0.3 时 ， 计 算 其 平均 访问 时 间 。 

假设 问题 4. 15 中 那 台 计 算 机 的 设计 者 想 要 提高 性 能 ， 但 只 能 改变 系统 中 的 3 个 部 件 (考虑 到 每 个 
改变 都 要 花 钱 ， 他们 只 想 改变 其 中 的 某 一 个 部 件 ， 选 择 其 中 最 好 的 一 个 ) 。 确 定 下 面 哪 项 可 以 最 好 
地 改善 这 个 系统 的 平均 访问 时 间 : 

a, 装 一 个 更 快 的 主 存储 器 ， 其 访问 时 间 为 100ns。 

b. 装 一 个 更 快 的 cache， 其 访问 时 间 为 8ns。 

c. 在 一 个 更 大 的 cache 中 采用 更 好 的 排列 方法 和 更 聪明 的 替换 算法 将 命中 率 提高 到 0.4。 
假设 一 个 小 型 的 16 位 嵌入 式 系统 主要 用 来 处 理 整数 代码 ， 但 是 有 时 需要 快速 地 处 理 一 块 浮 点 数据 
的 代码 ， 这 可 以 用 专门 的 在 FPE 中 执行 的 FPU 来 处 理 ， 也 可 以 将 代码 转换 成 大 型 整数 来 处 理 。 讨 
论 对 于 解决 方案 中 是 否 应 该 包含 FPU， 应 该 考虑 的 主要 因素 都 有 哪些 。 

第 3 章 中 已 经 介绍 了 相对 寻 址 的 概念 ， 简 单 讨论 相对 寻 址 与 空间 和 时 间 局 部 性 原理 ( 见 4.4.4 节 ) 
的 关联 。 

在 有 关 cache 的 部 分 ，“ 有 写 分 配 的 直 写 ” (WTWA) 是 什么 意思 ? 它 与 “无 写 分 配 的 直 写 ” 
(WTNWA) 有 什么 不 同 ? 在 一 个 输出 大 量 临时 的 图 像 数 据 给 内 存 映射 显示 的 系统 中 ， 哪 个 更 
合适 ? 

在 一 个 配 有 经 过 全 面 开 发 和 调试 的 软件 套件 的 做 入 式 系 统 中 ， 一 个 有 经 验 的 程序 员 在 调试 一 段 时 
不 时 出 问题 的 代码 段 时 在 RAM 的 0x0000 位 置 设置 了 一 个 观察 点 >。 但 是 你 的 代码 、 数 据 和 变量 都 
在 存储 器 中 的 另外 某 个 位 置 ， 你 当然 没有 固定 哪个 变量 或 者 代码 在 内 存 0x0000 的 位 置 。 你 能 理解 
为 什么 别人 应 该 关注 这 个 内 存 位 置 ， 即 便 这 个 位 置 可 能 永远 也 不 会 用 到 吗 ? 


日 ”观察 点 (watchpoint) 是 内 存 中 的 一 个 位 置 ， 调 试 软件 将 不 断 地 监测 ， 当 这 个 位 置 的 内 容 变化 时 停止 程序 的 
执行 。 
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对 本 书 这 类 书籍 ， 在 对 感 兴趣 的 部 分 或 章节 做 深入 研究 之 前 ， 读 者 很 少 会 通读 之 前 章节 的 
所 有 内 容 。 这 是 可 以 理解 的 , 事实 上 ， 本 书 的 作者 总 是 鼓励 读者 在 不 同 的 教科 书 上 “浏览 ” 
相关 的 部 分 ， 以 获得 对 某 一 主题 的 多 种 看 法 。 因 此 如 果 你 是 这 样 的 一 员 , 或 许 你 感 兴趣 的 是 使 
计算 机 变 得 更 快 的 话题 ， 那 么 欢迎 来 到 描述 计算 机 架构 师 和 程序 员 自 计算 时 代 开 始 以 来 一 直 关 
注 的 加 速 部 分 。 本 章 可 以 单独 阅读 ,但 它 确实 涉及 前 几 章 中 的 许多 原理 (也 可 能 是 简单 的 总 
结 )， 例 如 对 计算 机 各 代 划 分 的 理解 ， 新 兴 的 并 行 形式 ，RISC 与 CISC 之 争 ， 计 算 机 组 织 的 层 
次 视图 以 及 Flynn 的 分 类 。 

而 对 于 喜欢 按 顺 序 学 习 不 同 章节 的 读者 ， 恭 喜 你 们 读 到 了 这 里 。 和 希望 在 这 读者 能 够 在 脑海 
中 呈现 出 计算 机 设计 进化 的 过 程 ， 包 括 计算 机 性 能 逐步 提升 的 历史 。 在 设计 新 CPU 时 ， 所 有 
需要 的 模块 都 会 按 功 能 集合 成 一 个 可 以 工作 的 CPU 并 进行 评估 (参见 3.2.5 节 )。 限 制 模块 性 
能 的 部 分 将 被 调整 或 加 速 。 小 幅度 的 加 速 很 普遍 ， 这 贯穿 整个 设计 。 相 反 ， 真 正 的 革命 性 改变 
却 很 少 。 大 多 数 情况 下 ， 设 计 的 改进 源 于 性 能 的 需要 ， 而 从 根本 上 是 源 于 市 场 的 需求 。 然 而 在 
从 入 式 系统 中 ， 功 耗 影响 着 电池 的 寿命 ， 是 一 个 显著 的 因素 ， 因 此 通常 总 能 找到 很 多 理由 采用 
解决 功 耗 问题 的 革新 技术 而 不 是 采用 性 能 提高 技术 。 其 他 的 驱动 因素 还 包括 可 靠 性 、 正 确 性 、 
可 编程 性 (编程 的 简易 性 ) 和 安全 性 ， 这 些 都 带 来 了 一 些 有 趣 的 并 富有 创新 性 的 CPU 设计 。 

每 个 人 都 希望 获得 更 高 速 的 计算 机 。 有 人 曾 说 ， 在 信息 的 高 速 路 上 是 没有 速度 限制 的 。 在 
大 多 数 情 况 下 ， 用 户 的 直觉 是 高 速 意味 着 节约 更 多 时 间 ， 交 通 运输 方面 也 是 如 此 。 然 而 我 比较 
质疑 这 种 观点 : 现在 实验 室 中 的 学 生 在 使 用 的 高 速 的 计算 机 ， 却 比 上 一 代 使 用 相对 较 慢 的 计算 
机 的 学 生 浪费 了 更 多 的 时 间 。 对 于 艇 人 式 系统 ， 特 别 是 那些 需要 实时 处 理 的 拒 入 式 系统 ， 更 快 
的 计算 速度 无 疑 能 够 带 来 更 高 的 性 能 。 然 而 对 于 台式 机 却 有 这 样 的 质疑 ， 大 部 分 计算 机 速度 的 
提高 ， 内 存 、 外 存 容量 的 增长 都 被 软件 开发 人 员 给 消耗 掉 了 ， 他 们 开发 的 软件 需要 大 量 的 存储 
空间 ， 特 别 是 操作 系统 。 尽 管 如 此 ， 性 能 目标 依旧 是 计算 机 工业 中 最 主要 的 驱动 因素 ,并 且 已 
经 催生 出 了 许多 很 好 的 解决 方案 。 在 本 章 将 对 一 些 主流 的 CPU 性 能 提高 方案 以 及 一 些 聪明 但 
不 常见 的 想法 进行 探索 。 


5.1 加 速 


在 计算 机 历史 的 大 部 分 时 间 里 ， 调 整 时 钟 速度 使 其 更 快 是 提高 计算 机 性 能 的 主要 方法 。 但 
有 两 个 因素 一 一 逻辑 门 传播 延迟 ( 人 逻辑 门 完 成 处 理 需 要 多 长 时 间 ) 和 功 耗 制约 了 这 种 方法 的 
运用 。 要 使 栅 极 更 快 ， 通常 需要 使 硅 特 征 尺寸 更 小 (例如 IC 内 的 半导体 中 更 薄 、 更 小 的 硅 
带 )。 较 小 的 特征 尺寸 设计 成 本 更 高 ， 制 造 更 加 困难 ， 并 且 一 旦 制造 就 更 难以 操作 (例如 ， 电 
源 稳定 性 要 求 增加 ) 。 将 更 多 的 门 装 在 一 起 会 增加 IC 中 产生 的 废 热量 ， 而 增加 时 钟 速度 会 导致 
每 个 门 产生 的 热量 非常 显著 地 增加 。 这 些 因素 意味 着 现 有 CPU 设计 的 改进 越发 困难 ， 目 前 
CPU 设计 已 经 接近 当前 可 实现 技术 的 边缘 。 

部 分 处 理 器 设计 人 员 已 经 把 目光 转向 其 他 方法 ， 比 如 RISC 处 理 器 的 出 现 和 逐渐 壮大 。 一 
些 公司 主要 致力 于 增加 处 理 器 字 长 ， 从 4 位 到 8 位 、16 位 、 一 直到 32 位 。 近 期 的 一 些 设计 已 
经 达到 了 64 位 和 128 位 ， 甚 至 出 现 了 1024 位 的 系统 (更 多 内 容 详 见 第 12 章 ) 。 
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现在 的 技术 不 仅 单纯 提高 时 钟 速度 ， 而 且 更 侧重 于 在 每 个 时 钟 周期 做 更 多 的 事情 ， 这 促使 
了 并 行 和 流水 线 的 出 现 ( 或 是 两 种 技术 同时 使 用 ) 。 

已 被 收购 的 SUN 公司 则 在 其 Java 处 理 器 上 采用 了 一 种 不 同 的 技术 ， 这 种 技术 重新 运用 了 
CISC 处 理 器 的 思想 ， 但 这 是 从 软件 的 角度 进行 的 〈 这 种 方法 极 好 地 将 堆栈 和 RISC 处 理 器 整合 
到 一 起 ) 。 目 前 ，PicoJava 及 类 似 的 处 理 器 都 是 为 Java 语言 量 身 定制 的 ， 而 不 像 其 他 大 多 数 处 
理 器 那样 通过 对 语言 进行 翻译 来 解释 并 在 处 理 器 上 执行 。 这 种 以 软件 为 本 的 设计 方法 在 商业 上 
取得 了 一 定 成 功 ， 或 许可 以 预示 这 种 设计 方法 的 时 代 将 要 到 来 。 

本 章 主要 涉及 目前 处 理 器 设计 领域 所 采用 的 主流 设计 思想 和 方法 ， 这 些 思 想 和 方法 更 多 是 
出 于 商业 利益 而 不 是 学 术 上 的 考虑 ， 总 的 目的 就 是 让 消费 者 尽 可 能 快速 地 获得 速度 更 快 、 价 格 
更 便宜 的 产品 。 我 们 从 最 重要 、 最 常见 的 流水 线 技术 开始 。 


5.2 流水 线 


虽然 流水 线 的 出 现 有 时 候 更 应 该 归功 于 现代 工业 制造 技术 而 不 是 计算 机 的 发 展 ， 但 它 能 够 
提高 处 理 器 的 指令 吞吐 率 (throughput) 而 不 是 缩短 每 条 指令 的 执行 时 间 (事实 上 缩短 每 条 指 
令 的 执行 时 间 能 够 带 来 更 多 的 性 能 提高 )。 这 种 技术 是 将 每 条 指令 的 处 理 划 分 为 多 个 阶段 ， 从 
而 能 够 同时 处 理 多 条 指令 ， 进 而 获得 整体 吞吐 率 的 提高 。 

吞吐 率 是 指 每 秒 执行 操作 的 数目 ， 在 3. 5. 2 节 中 是 指 每 条 指令 所 需 的 时 钟 周期 数 。 吞 吐 率 
度量 方法 比 每 条 指令 需要 多 长 时 间 完 成 更 重要 。 为 了 证 明 这 一 点 ， 我 们 来 考虑 一 条 典型 处 理 器 
指令 处 理 流程 ， 如 图 5-1 所 示 。 





图 5-1 一 个 简单 CPU 的 四 级 指令 处 理 流程 图 


在 这 个 例子 中 ， 每 条 指令 分 4 个 阶段 完成 处 理 ， 其 中 需要 假设 的 是 ， 每 个 阶段 的 持续 时 间 
均 为 1 个 时 钟 周 期 。 每 条 指令 需要 一 次 通过 所 有 4 个 阶段 来 完成 处 理 ， 因 此 需要 4 个 时 钟 
周期 。 

对 于 一 个 非 流水 线 的 机 器 ， 取 到 并 处 理 一 条 指令 需要 在 前 一 个 指令 处 理 完成 之 后 才能 开 
台 。 我 们 通过 以 下 预约 表 (reservation table) 来 展示 : 


























表 的 左边 是 处 理 指 令 所 需 的 不 同 功能 单元 ， 底 部 是 时 钟 周 期 。 表 中 给 出 了 连续 9 个 时 钟 周 
期 中 每 个 时 钟 周期 处 理 器 所 进行 的 工作 。 

在 第 一 个 时 钟 周 期 处 理 器 取 到 指令 1， 然 后 依次 进行 译 码 ， 取 操作 数 ， 最 后 执行 指令 所 表 
示 的 功能 。 完 成 以 上 步骤 ， 指 令 2 才 开 始 它 的 处 理 流 程 。 

然而 从 另 一 个 角度 考虑 这 个 预约 表 : 假如 我 们 把 列 当 作 存 在 的 资源 ， 把 行当 作 时 际 
(time slot) ， 可 以 清楚 地 发 现 每 个 资源 在 大 部 分 的 时 际 上 什么 也 没 做 。 如 果 能 够 将 多 条 指令 
重合 执行 ， 让 每 个 资源 在 更 多 的 时 间 里 有 事情 做 ,执行 效率 将 会 提高 很 多 。 接 下 来 试 试 我 
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这 种 方法 最 显著 的 效果 是 原本 在 第 9 个 时 钟 周期 才 开 始 指令 3， 现在 通过 重 每 执行， 包含 
了 9 条 指令 ， 这 样 指令 执行 速度 为 原来 的 3 倍 。 这 种 方法 并 没有 提高 时 钟 频率 或 者 改变 处 理 顺 
序 ， 只 是 让 指令 重 丢 执 行 。 

这 种 重奏 执 行 叫 作 流 水 线 ， 已 经 被 几乎 所 有 现代 处 理 器 所 采用 以 提高 执行 速度 。 这 种 技术 的 
控制 单元 变 得 越 来 越 复杂 ， 但 与 在 速度 上 获得 的 提高 相 比 不 值 一 提 ， 请 参考 框 5. 1 中 的 分 析 。 
流水 线 加 速 比 

流水 线 度量 有 两 个 指标 : 加 速 比 和 效率 。 首 先 我 们 考虑 一 个 含有 s 条 指令 的 程序 ， 每 条 指令 需要 n 
个 时 钟 周期 完成 处 理 。 

在 非 流水 线 处 理 器 上 ， 这 个 程序 的 执行 时 间 为 sxn 个 时 钟 周 期 。 

然后 我 们 把 这 个 处 理 器 划分 为 nn 个 流水 阶段 ， 完 成 每 个 阶段 需要 1 个 时 钟 周 期 。 这样 ， 需 要 多 长 时 
间 来 执行 这 个 程序 呢 ? 

第 1 条 指令 需要 nn 个 时 钟 周 期 来 完成 ， 但 往 后 每 个 时 钟 周期 都 会 完成 1 条 指令 ， 所 以 总 的 执行 时 间 
为 n+(s 一 1) 个 时 钟 周期 。 ' 

加 速 比 S, 为 非 流水 线 所 需 的 时 钟 周 期 除 以 流水 线 所 需 的 时 钟 周 期 : 

Se 己 


Sn 
n+s—-l 


可 以 观察 到 ， 当 s 一 om 时 ， 则 有 5, 一 n， 这 意味 着 程序 越 大 ， 它 的 执行 效率 就 会 越 高 ( 因为 不 管 流水 
线 有 多 快 ， 其 内 部 都 是 从 没有 任何 指令 开始 ， 并 以 1 条 指令 一 一 程序 的 最 后 一 条 指令 结束 )。 换 名 话 说 ， 
流水 线 的 开始 状态 和 结束 状态 相对 来 说 并 不 那么 高 效 。 

所 以 另 一 个 度量 指标 一 一 效率 ， 需 要 考虑 流水 线 的 开始 状态 和 结束 状态 。 效 率 是 指 所 有 执行 的 指令 
数 除 以 流水 线 执行 的 时 间 : 











只 
n+s—-1 


这 个 公式 看 起 来 与 加 速 比 公式 有 点 类 似 ， 因 而 如, = 5,/n， 并 且 与 吞吐 率 相等 。 吞吐 率 是 指 单位 时 间 
完成 的 指令 数目 。 
下 面 将 讨论 更 多 流水 线 带 来 的 难题 ,但 首先 我 们 先 来 了 解 一 下 不 同类 型 的 流水 线 。 


5.2.1 多 功能 流水 线 
流水 线 并 不 一 定 是 单一 功能 的 ， 它 可 以 处 理 不 同类 型 的 指令 ， 即 多 功能 流水 线 。 事 实 上 这 
很 平常 ， 只 是 会 增加 控制 的 复杂 度 。 考 虑 如 图 5-2 所 示 的 一 个 例子 。 
将 内 存 地 址 3 上 的 内 容 与 R1 内 容 相 加 后 放 入 R1 ” 读 内 存 地 址 3 
将 立即 数 3 与 R1 内 容 相 加 后 放 入 Rl 
图 5-2 在 一 个 简单 四 级 流水 线 CPU 上 处 理 两 条 汇编 指令 的 流程 图 。 第 1 条 指令 使 用 了 流水 线 上 的 每 一 


级 ， 而 第 2 条 流水 线 因为 不 需要 从 内 存 里 取 操 作 数 ， 因 此 跳 过 了 第 3 级 。 这 说 明了 多 功能 流水 
线 的 概念 ， 即 根据 指令 的 不 同 需 要 按 不 同 的 方式 处 理 指令 





B= 



















ADD R1, [#3] 
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在 图 5-2 上 部 所 示 的 流水 线 中 ,第 1 条 指令 需要 从 内 存 中 取出 内 容 ， 所 以 它 需 要 “ 取 操 作 
数 ” 这 个 单元 。 在 下 部 所 示 的 相同 流水 线 中 显示 稍 后 执行 了 一 条 不 同 指令 。 这 条 指令 不 需要 取 
操作 数 〈 因 为 立即 数 3 作为 指令 的 一 部 分 已 经 存在 于 处 理 器 中 ) ， 所 以 在 这 个 条 件 下 不 需要 
“ 取 操 作 数 ”这 个 单元 。 然 而 ， 这 并 不 意味 着 流水 线 会 跳 过 这 一 级 因而 使 得 第 2 条 指令 能 够 更 
快 地 完成 。 考 虑 以 下 预约 表 ， 表 中 两 条 指令 顺序 执行 。 


取 指 ADD R1，[ 扫 ] | ADD R1, 总 ”| 指令 3 | 指令 4 | 
译 码 ADD RI，[ 要 ] | ADD R1, 净 | 指令 3 | 
取 操 作 数 ADD R1, [#3] | NOP | 

] 




















执行 指令 | ADD R1，[ 扫 ] 


时 钟 周期 | 1 [一 3 4 


在 第 4 个 时 钟 周期 , 第 2 条 指令 被 标 为 NOP (无 操作 ) ， 但 处 理 器 却 不 能 立即 从 译 码 跳 到 执 
行 阶段 ， 因 为 在 第 4 个 时 钟 周期 ， 处 在 执行 阶段 的 硬件 仍 在 处 理 前 一 条 指令 (ADD R1，[ 招 ] )。 

这 还 阐明 了 一 个 有 趣 的 观点 : 流水 线 需 要 满足 不 同类 型 指令 的 需求 ， 而 且 受 限 于 最 慢 的 指 
令 。 对 于 非 流水 线 处 理 器 ， 简 单 指令 可 以 快速 地 处 理 ， 复 杂 指 令 会 慢 一 些 。 但 对 于 流水 线 处 理 
器 ， 所 有 的 指令 都 需要 相同 的 时 间 来 处 理 ， 除 非 是 采用 了 更 先进 的 技术 。 

设计 人 员 需 要 小 心 对 竺 流水线， 至 关 重 要 的 一 点 是 要 让 流水 线 的 所 有 单元 在 大 多 数 时 间 内 
保持 工作 ， 然 而 我 们 却 在 预约 表 中 加 入 了 NOP。NOP 意味 着 这 个 时 钟 周期 无 操作 或 资源 浪费 。 
为 了 最 小 化 这 种 浪费 时 隙 ， 需 要 调查 所 有 指令 的 需求 和 指令 的 出 现 频率 。 


5.2.2 动态 流水 线 


在 多 功能 流水 线 概念 的 基础 上 ， 动 态 流水 线 并 不 是 简单 地 绕 过 没 用 的 功能 ， 而 是 根据 正在 
处 理 的 指令 和 处 理 器 状态 ， 允 许 选择 不 同 
的 流水 线 执行 路 径 。 

图 5-3 展示 了 一 个 虚构 的 例子 ， 它 拥有 
4 个 未 命名 的 流水 线 单元 〈T, 到 T, ) ， 处 理 
着 3 条 不 同 的 指令 ， 每 条 指令 经 过 了 流水 
线 不 同 的 路 径 。 然 而 这 种 流水 线 中 复杂 的 全 国生 条。 /能 的 指 人 《中 和 
er ind 图 5-3 i 它 允 许 不 同 指令 根 
(例如 指令 3 绕 过 了 流水 线 的 中 单元 ) 进 
行 降 速 的 延迟 部 件 在 图 中 并 没有 展现 出 来 。 Rp 

延迟 部 件 也 必须 是 动态 的 ， 它 们 只 在 需要 保证 指令 按 顺序 到 达 流水 线 各 单元 的 时 候 被 激 
活 。 例 如 ， 指 令 3 为 了 跟 在 指令 2 后 ,需要 延迟 一 个 时 钟 周期 以 避免 在 T, 单元 与 指令 2 发 生 冲 
突 。 反 之 ， 指 令 1 需要 绕 过 流水 线 的 了 T 单元 ， 但 是 并 不 需要 保持 跟 在 任何 指令 后 边 ， 因 此 不 
需要 延迟 。 

感 兴趣 的 读者 可 能 会 注意 到 ， 很 多 处 理 器 会 足够 智能 地 为 自己 决定 哪些 指令 需要 通过 流水 
线 上 的 各 单元 并 按 顺序 执行 ， 哪 些 指令 可 以 乱 序 执行 从 而 避免 过 度 的 延迟 。 


5.2.3 改变 流水 线 模式 


到 目前 为 止 , 所 有 的 讨论 都 假设 每 条 经 过 流水 线 的 指令 是 不 相关 的 ， 并且 每 一 条 指令 都 能 
在 之 前 的 指令 结束 后 进入 流水 线 。 
显然 ， 这 种 假设 并 不 总 是 正确 的 。 我 们 将 考虑 3 种 情况 ， 它 们 将 在 本 节 和 接 下 来 的 两 节 中 
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对 流水 线 的 操作 产生 影响 。 

首先 ， 现 在 很 多 处 理 器 都 会 发 生 模 式 改 变 ， 这 是 通过 接收 一 条 模式 改变 指令 来 触发 的 ， 将 
会 改变 对 随后 到 来 的 指令 的 处 理 方式 。 例 如 : 

1) 在 ARM 处 理 器 中 ， 指 令 集 替换 (16 位 Thumb 指令 集 替换 原 有 的 32 位 ARM 指令 集 ) 。 

2) 在 大 多 数 处 理 中 (包括 ARM 处 理 器 ) ， 大 小 尾 端 模式 转换 。 先 前 的 指令 存储 为 小 尾 端 
模式 ， 在 改变 大 小 尾 端 模 式 后 ， 后 来 的 指令 存储 为 大 尾 端 模式 。 

3) 对 于 一 些 定点 DSP 处 理 器 (如 TMS320 系列 )， 改 变 算数 模式 来 开启 或 关闭 符号 扩展 ， 
从 而 影响 后 续 指令 的 执行 。 

虽然 这 些 模式 指令 会 被 使 用 ， 但 是 并 不 频繁 。 例 如 对 于 前 两 种 指令 ， 只 会 在 程序 开始 时 有 
可 能 执行 ， 而 第 三 种 指令 只 在 每 个 算术 运算 块 执行 一 次 。 

对 于 这 种 极 少 执行 的 指令 ， 大 多 数 处 理 器 会 在 接收 到 这 种 指令 后 清空 流水 线 ， 这 意味 着 所 
有 已 经 进入 流水 线 的 指令 都 将 被 丢弃 而 流水 线 会 重新 开始 执行 。 这 种 方法 虽然 看 起 来 十 分 极 
端 ， 但 是 对 于 电路 逻辑 来 说 却 十 分 简单 的 解决 方案 。 同 时 ， 这 种 方法 虽然 对 流水 线 效率 影响 很 
大 ， 但 是 由 于 在 大 多 数 程序 里 极 少 出 现 ， 所 以 对 处 理 器 的 性 能 几乎 没有 影响 。 

下 面 的 预约 表 展 示 了 接收 到 这 种 模式 改变 指令 (ChM) 时 流水 线 的 情况 。 从 表 中 可 以 看 
到 ， 指 令 3、4、5 都 已 经 进入 流水 线 ， 在 接收 到 模式 改变 指令 后 ， 这 些 指 令 被 丢弃 ， 处 理 器 在 
第 6 个 时 钟 周期 改变 执行 模式 ， 然 后 这 些 指令 被 重新 取 指 。 


























指令 5 x 
指令 4 x 
指令 3 X 
ChM X 
5 6 

















这 个 预约 表 可 以 是 以 下 指令 序列 的 执行 结果 : 

指令 1: ADD RO0, RO, Rl 

指令 2: MODE big endian 

指令 3: SUB R4，R1，R0O 

指令 4: NOP 

指令 5: NOP 

指令 6: NOP 
其 中 ,指令 3、4、5 以 大 尾 端 模式 译 码 (虽然 在 编译 器 的 助 记 符 中 并 没有 体现 出 来 ， 但 是 通过 
查看 存储 这 一 块 程序 的 内 存 是 可 以 看 到 的 ) 。 

一 旦 流水 线 的 模式 改变 ， 则 需要 清空 流水 线 ， 后 续 的 指令 将 被 重新 取 指 。 

在 比较 新 的 处 理 器 中 ， 这 种 操作 由 CPU 自动 执行 ， 但 对 于 比较 旧 的 流水 线 处 理 器 ， 这 种 
操作 不 会 自动 执行 ， 而 需要 由 编译 器 来 完成 (甚至 是 由 编程 人 员 手 动 修改 汇编 代码 来 完成 ) 。 
在 上 面 的 例子 中 ， 只 需 对 程序 进行 简单 修改 就 可 以 完成 模式 改变 时 流水 线 清 空 的 工作 ， 这 是 通 
过 改变 指令 的 顺序 来 完成 的 : 

指令 1: ADD R0，R0O，Rl1 

指令 2: MODE big endian 

指令 3: NOP 

指令 4: NOP 

指令 5: NOP 

指令 6: SUB R4，R1，RO 


提高 CPU 性 能 121 





换 句 话说 ， 只 需 在 模式 改变 指令 后 插入 一 系列 的 NOP 指令 即 可 ， 这 是 因为 NOP 指令 不 管 
使 用 大 尾 端 模式 读 取 还 是 小 尾 端 模式 读 取 ， 对 于 译 码 的 结果 都 是 一 样 的 。 例 如 ， 指 令 0x0000 
和 指令 0xFFFF 反 过 来 读 也 是 0x0000 和 0OxFFFF， 这 使 得 当 发 生 模 式 改变 时 ， 指 令 译 码 不 管 从 哪 
个 方向 读 指令 ， 译 码 的 结果 都 是 一 样 的 。 


5.2.4 数据 相关 冒险 


与 改变 处 理 器 模式 会 引发 处 理 器 运行 的 一 系列 问题 一 样 ， 处 理 器 内 部 寄存 器 和 内 存 存 储 位 
置 的 变化 也 会 对 程序 的 运行 造成 影响 。 考 虑 以 下 指令 序列 ， 它 们 就 会 引发 一 些 问题 : 

ADD R0，R2，RL ， ，RO =R2 +R1 

AND R1, RO, 所  ; Rl=R0AND2 

从 以 上 的 指令 序列 可 以 看 到 ， 第 二 条 指令 依赖 第 一 条 指令 的 结果 ，R0 需要 先 被 写 回 才能 
够 被 第 二 条 指令 正确 读 取 。 但 在 流水 线 中 ， 这 会 引发 问题 ， 来 看 看 如 图 5-4 所 示 的 这 条 虚构 的 






图 5-4 五 级 流水 线 示意 图 


这 条 流水 线 的 主要 特点 是 ， 在 流水 线 示 尾 增加 了 一 级 写 回 (store result) 用 于 存储 运算 结 
果 ， 而 不 管 运 算是 否 发 生 。 增 加 这 一 级 首先 是 为 了 阐明 数据 相关 这 个 问题 ， 其 次 在 大 部 分 处 理 
器 中 确实 也 包含 着 这 一 级 。 

下 面 的 这 个 预约 表 是 上 述 两 条 指令 在 这 个 流水 线 中 执行 的 情况 ， 需 要 注意 的 是 ， 在 每 个 时 
际 中 都 有 寄存 器 RO 内 容 的 指示 : 















































取 指 ADD RO . ANDRI = 
ADD RO AND RI1 
ADD RO | AND RI1 | 
ADD RO AND RI 
ADD RO AND RI1 
- 2 3 1 | 5 | 6 | 
X X X R2 +RI1 R2 +RI 





这 里 需要 注意 的 是 AND 这 条 指令 ,需要 RO 作为 它 的 一 个 操作 数 (RI = RO AND 2) ， 而 这 
个 “ 取 操 作 数 ”是 流水 线 的 第 三 级 ( 如 表 中 黑体 字 所 示 ) 。 在 这 个 例子 中 ,第 二 条 指令 的 取 操 
作 数 发 生 在 第 4 个 时 钟 周期 但 是 第 一 条 指令 在 第 5 个 时 钟 周 期 才 将 结果 写 回 寄存 器 RO。 如 
此 ,第 二 条 指令 将 会 从 RO 取 回 一 个 不 正确 的 值 。 

这 种 现象 称 为 RAW ( Read After Write， 先 写 后 读 ) 冒险 (hazard)， 按照 程 序 意图 ， 寄 存 
器 R0 应 该 是 在 被 写 之 后 才 被 读 ， 但 在 上 述 情况 中 则 是 在 被 写 回 前 被 第 二 条 指令 读 取 了 。 

如 果 仔 细 观 察 上 述 例 子 ， 还 存在 另 一 个 冒险 。 在 这 个 例子 中 ,寄存 器 Rl 存在 WAR 
(Write After Read ， 先 读 后 写 ) 反 相 关 性 。 第 一 条 指令 需要 读 RI ， 第 二 条 指令 则 需要 写 RI ， 这 
个 冒险 就 是 要 确定 第 二 条 指令 在 写 R1 前 第 一 条 指令 必须 已 经 对 Rl 读 取 完毕 。 在 上 述 流水 线 
中 ,这 种 冒险 不 会 发 生 ， 但 是 对 于 现在 一 些 比较 先进 的 带 有 乱 序 执行 (out-of-order) 的 动态 流 
水 线 中 ,这 种 冒险 是 存在 的 。 

还 有 一 种 冒险 是 WAW (Write After Write， 写 后 写 ) ,例子 在 框 5.2 中 给 出 。 
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WAW 冒险 

这 种 冒险 解释 起 来 比较 简单 。WAW 冒险 是 指 当 有 两 条 指令 对 同一 地 址 写 时 ， 第 三 条 指令 则 需 
要 从 这 个 地 址 读 的 时 候 发 生 。 它 需要 保证 读 操作 既 不 能 发 生得 太 早 也 不 能 发 生得 太 晚 。 以 下 给 出 一 
个 例子 : 


ADD RO, R2, R1 ; RO=R2+R1 
AND EL RO 要 ; Rl =RO AND2 
SUB R0O，R3， 提 六 有 0 三 有 3 一 】 


在 这 个 例子 中 RO 存在 WAW 冒险 。 不 需要 给 出 预约 表 就 可 以 很 容易 地 看 到 第 二 条 指令 的 取 操 作 数 必 
须 在 第 一 条 指令 写 回 完 成 后 和 第 三 条 指令 写 回 没有 完成 前 发 生 。 

需要 注意 的 是 ， 在 这 一 段 指令 过 后 ，R0 存放 的 是 最 后 的 结果 ， 所 以 第 一 条 指令 对 R0 的 写 只 是 一 个 
暂 存 。 这 种 现象 可 以 通过 将 数据 存放 到 其 他 的 寄存 器 或 通过 数据 转发 (在 5.2.10 节 中 详 述 ) 来 消除 。 
WAW 冒险 有 时 在 内 存 系统 中 发 生 ， 因 为 RAM 的 写 回 速度 比 读 取 速 度 慢 。 通 常 这 种 冒险 由 cache 硬件 来 
解决 ， 因 此 不 需要 考虑 。 


5.2.5 条 件 冒 险 


给 定 一 些 在 一 定 条 件 下 才能 够 执行 的 指令 ,问题 是 在 什么 时 候 检 查 这 些 条 件 以 确定 指令 是 
否 应 该 执行 。 以 下 给 出 一 个 程序 段 : 

ADDS RO, R2, Rl ; RO =R2 +Rl， 并 设置 条 件 标志 位 

ANDEQ RL1，R0O， 检 ;如 果 零 标志 位 被 置 1,，RI1 =RO AND 2 . 

之 前 提 到 过 的 ARM 处 理 嚣 中， 如 果 在 指令 的 末尾 带 “S” 则 表示 指令 的 执行 结果 需要 
更 新 条 件 标志 位 ( 如 零 标 志 位 (zero fag) 、 负 数 标志 位 〈negative flag) 、 进 位 标志 位 〈carry 
fag) 以 及 溢出 标志 位 〈overflow flag) ， 这 些 标志 都 存放 在 ARM 处 理 器 的 CPSR 寄存 器 中 ， 
框 5.3 对 几 种 常见 的 条 件 标志 位 进行 了 讨论 )。 第 2 条 指令 的 执行 是 带 有 条 件 的 ,，“EQ” 指 
出 了 这 条 指令 当 且 仅 当 先前 指令 的 执行 结果 为 0 (在 这 个 例子 中 是 当 且 仅 当 RO 为 0) 时 才 
执行 。 
条 件 标志 位 

虽然 不 同 的 处 理 器 对 寄存 器 的 命名 有 所 区 别 ， 但 是 在 目前 市 场 上 大 部 分 处 理 嚣 中， 通常 还 是 可 以 看 
到 如 下 条 件 标志 位 : 

N (负数 标志 位 ): 最 后 一 条 条 件 设置 指令 的 结果 为 负数 。 

Z ( 零 标志 位 ): 最 后 一 条 条 件 设 置 指令 的 结果 为 0。 

C (进位 标志 位 ); 最 后 一 条 条 件 设置 指令 的 结果 产生 了 进位 。 

V (溢出 标志 位 ) : 最 后 一 条 条 件 设置 指令 的 结果 产生 滋 出 。 

在 下 表 中 我 们 将 给 出 一 些 影响 这 些 标 志 位 发 生变 化 的 指令 例子 。 根 据 指令 末尾 是 否 带 有 “S” 来 决 
定 指令 的 结果 是 否 影响 条 件 标志 位 。 





























指令 操作 N z e 
MoV RO, 0 RO =0 0 0 | 0 0 
MOV RL， 相 Rl =2 | 0 0 0 0 
SUBS R2, R1, Rl R2 =Rl -R1， 结 果 为 0 0 1 0 | 0 | 
SUBS R3, RO, Rl R3 =R0 - Rl1， 结 果 为 负 ，0xFFFFFFFD LL 0 0 
SUB R2, R1, R1 R2 =R1 -Rl1， 结 果 为 0, 但 不 带 “s” 是 0 0 
ADDS R4, R1, Rl R4 =Rl +R1， 结 果 为 正 ，0x4 0 0 0 | o | 
ADDS R5, R4, R3 R5 =R4 +R3, 0x4 +0xFFFFFFFD 0 0 
MOV R8, #0x7FFFFEFFF 最 大 的 正 32 位 有 符号 数 0 0 0 
ADDS R9, R8, R1 R9 =R8 +R1， 结 果 为 0x80000001 0 0 0 
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值得 注意 的 是 ,0 一 般 被 当成 正 数 而 不 是 负数 来 处 理 。 而 进位 标志 位 和 溢出 标志 位 的 使 用 对 于 将 操 
作 数 当 作 有 符号 数 或 无 符号 数 也 是 有 区 别 的 ， 如 果 处 理 的 是 有 符号 数 ， 则 溢出 标志 位 十 分 重要 ， 而 如 果 
处 理 的 是 无 符号 数 ， 则 需要 考虑 进位 标志 位 。 更 多 讨论 可 以 参考 2.4 节 的 内 容 。 

接 下 来 ,我 们 根据 以 上 例子 的 指令 填写 预约 表 : 























取 指 ADDS RO ANDEQ RI 指令 3 指令 4 
译 码 ADDS RO ANDEQ RI1 指令 3 
取 操 作 数 ADDS RO ANDEQ RI1 
| 


执行 指令 ADDS RO 
写 回 
时 钟 周期 1 2 3 4 


NZCV 0000 0000 0000 0000 


在 第 4 个 时 钟 周期 末尾 ,第 1 条 指令 已 经 执行 并 且 条 件 标志 位 被 更 新 。 注 意 到 第 2 条 指令 
此 时 已 经 进入 流水 线 ， 虽然 此 时 并 不 知道 这 条 指令 是 否 应 该 执行 , 但 是 还 是 允许 它 进入 流水 线 
并 阻塞 流水 线 直 到 第 1 条 指令 执行 完毕 。 在 一 些 处 理 器 中 ,会 使 用 预测 执行 (speculative exe- 
cution) 来 加 载 和 处 理 第 2 条 指令 。 一 旦 条 件 标 志 位 确定 ， 就 会 决定 是 否 中 断 第 2 条 指令 或 让 
它 继 续 执 行 。 

我 们 继续 填写 预约 表 ， 同 时 假设 第 1 条 指令 结果 不 为 0， 则 第 2 条 指令 不 需要 执行 (或 者 
即使 执行 但 是 结果 也 将 被 丢弃 ) 。 









































取 指 ADDS RO ANDEQ R1 指令 3 





ADDS RO ANDEQ RI1 





ADDS RO 





执行 指令 


ADDS RO 





ADDS RO 














1 2 3 4 5 








NZCV 0000 0000 0000 0000 0000 0000 


由 于 零 标志 位 在 第 5 个 时 钟 周期 没有 被 置 1， 因 此 移 除 第 2 条 指令 并 以 NOP 指令 代替 。 这 
导致 了 预约 表 中 一 整 条 对 角 线 资源 的 浪费 。 相 较 而 言 ， 如 果 流 水 线 在 等 待 至 第 5 个 时 钟 周期 第 
1 条 指令 完成 后 再 取 下 一 条 指令 ， 则 将 会 浪费 3 条 对 角 线 的 资源 。 

至 此 ， 读 者 应 该 会 有 疑问 : 流水 线 还 需要 什么 样 的 额外 部 件 才能 够 支持 预测 执行 ? 对 于 预 
测 执行 ， 在 框 5.5 中 会 有 简要 的 说 明 ， 深 入 讨论 将 在 5. 7 节 进 行 。 


5.2.6 条 件 分 支 


ARM 处 理 器 有 一 个 指令 集 ， 里 边 的 大 部 分 指令 都 是 带 有 条 件 操作 的 。 然 而 ， 对 于 大 多 数 
处 理 器 来 说 ， 它 们 的 条 件 操 作 只 有 条 件 分 支 ， 用 来 改变 程序 的 指令 流 。 以 下 是 一 个 条 件 分 支 的 
例子 : 
loop: MOV R1, #5 ;R1=5 
AND R4, R3, R1 ;R4=R3 AND R1 


SUBS R2, RO, R1 ;R2=R0O-R1 


BGT loop ;如 果 结 果 为 正则 分 支 
NOT R3, R4 
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其 中 重要 的 一 行为 BGT (如 果 条 件 标志 位 大 于 0 则 分 支 ) 和 它 之 前 设置 这 个 条 件 标志 位 的 


行 。 很 明显 ， 在 SUBS 指令 结束 并 且 更 新 条 件 标志 位 以 前 ， 无 法 知道 分 支 是 否 应 该 发 生 。 


假设 上 述 程 序 在 一 个 只 有 三 级 的 流水 线 上 执行 ， 如 图 5-5 所 示 。 





执行 指令 | 





图 5-5 一 条 简单 的 三 级 流水 线 流程 图 。 该 流水 线 将 取 指 和 译 码 放 在 
同一 阶段 并 且 没 有 专用 于 取 操 作 数 的 阶段 


我 们 使 用 这 条 流水 线 在 以 下 预约 表 中 “执行 ”操作 序列 〈 到 分 支 处 为 止 ) 。 





























取 指 和 译 码 | MOV | AND | SUBS | BGT | 

执行 指令 | MOV | AND SUBS BGT | 

写 回 | Mov AND SUBS | BGT 

时 钟 周期 / 1 2 | 3 4 5 6 / 7 | 8 9 | 




















在 第 5 个 时 钟 周 期 ，SUBS 的 结果 确定 了 ， 条 件 标志 位 被 更 新 ， 因 而 执行 分 支 指令 。 如 此 ， 
下 一 条 指令 在 第 6 个 时 钟 周期 才能 被 正确 取 指 ， 但 造成 了 流水 线 一 条 对 角 线 资源 的 浪费 ， 它 在 
第 5 个 时 钟 周期 就 已 经 接收 了 下 一 条 指令 : 














MOV | AND | SuBs | BGT 

执行 指令 MOV | AND | SUBS 
| 写 回 | | MOV | AND 
| 时 钊 周期 | 1 |2 | |4 








为 了 减少 这 种 浪费 ， 如 在 5. 2. 5 节 中 所 提 到 的 ， 一 些 处 理 器 会 采用 预测 执行 。 这 意味 着 将 
直接 对 NOT 这 条 指令 进行 取 指 。 如 果 分 支 发 生 ， 则 将 NOT 指令 从 流水 线 中 清除 ; 如 果 未 发 生 ， 
指令 将 继续 执行 。 以 下 是 分 支 预 测 且 预 测 错误 的 预约 表 : 

















| 取 指 和 译 码 | MOV AND | SUBS | Ber NOT MOV | | 

| 执行 指令 | MOV | AND | SUBS | BGT NOT | Mov | | 

| 写 回 | | MOV | AND | SUBS BCT | x | wov 

| 时 钟 周期 | 1 2 | 3 | 4 5 6 7 | 8 9 

















分 支 预测 当然 不 会 总 是 预测 正确 : 当 预 测 正确 时 ， 流 水 线 满 效 率 工作 ， 但 是 当 预 测 错误 
时 ， 效 率 会 降低 ， 但 这 并 不 会 比 不 带 分 支 预测 时 差 。 在 现代 处 理 器 中 ， 都 带 有 一 些 奇 怪 但 是 十 
分 先进 的 技术 来 提高 分 支 预 测 硬件 的 正确 性 ( 详 见 框 5.4)。 

分 支 预测 

对 于 支持 分 支 预 测 的 处 理 器 ， 它 们 总 是 去 预测 该 执行 分 支 或 者 不 该 执行 分 支 。 正 确 的 预测 将 不 会 降 
低 处 理 器 的 效率 ， 而 错误 的 预测 则 会 浪费 处 理 器 一 些 时 钟 周期 。 

对 于 一 些 处 理 器 ， 它 们 的 预测 总 是 不 变 的 ， 比 如 不 分 支 。 这 样 编译 器 将 代码 优化 为 不 分 支 比分 支 多 ， 
从 而 提高 处 理 器 的 性 能 。 

而 更 智能 的 处 理 器 则 会 记录 之 前 条 件 分 支 执行 的 结果 。 如 果 之 前 执行 结果 中 分 支 比 不 分 支 多 ， 则 预 
测 后 续 的 条 件 分 支 执行 为 分 支 ， 反 之 为 不 分 支 。 这 就 是 所 谓 的 全 局 预测 器 ( global predictor) 。 更 先进 的 
硬件 则 会 对 不 同 的 分 支 分 别 记 录 ， 或 者 是 使 用 类 似 于 cache 的 32 位 或 64 位 记录 器 对 低 5 位 或 低 6 位 地 址 
相同 的 分 支 统 一 记录 ， 这 就 是 局 部 预测 器 (local predictor) 。 

而 最 复杂 的 预测 器 包含 了 一 个 全 局 预测 器 和 多 个 局 部 预测 器 ， 它 具有 极 高 的 预测 率 。 这 是 以 性 能 为 
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目标 的 研究 领域 ， 到 目前 为 止 ， 最 优 的 预测 率 还 是 由 编译 器 和 硬件 来 协同 获得 。 

我 们 将 在 5.7 节 对 此 进行 更 深入 的 讨论 ， 在 框 5.5 中 将 给 出 一 个 简单 预测 器 硬件 的 例子 。 
预测 执行 

近 几 年 来 ， 各 种 预测 执行 被 开发 出 来 ， 尤 其 是 基于 IBM 的 分 割 流 水 (split-pipeline) ， 它 对 条 件 分 支 
的 两 个 分 支 分 别 在 两 条 独立 的 流水 路 径 上 同时 执行 。 一 旦 分 支 条 件 确定 ， 则 会 丢弃 错误 的 路 径 。 显 然 ， 
由 于 将 不 同 分 支 独立 开 来 ， 这 种 机 制 并 不 会 损失 处 理 器 的 效率 ， 但 是 会 增加 硬件 的 开销 。 

框 5.4 中 所 提 到 的 分 支 预测 中 所 描述 的 “可 能 性 跳 转 ”模型 的 能 力 稍 弱 ， 它 记录 过 去 条 件 分 支 指令 
的 执行 、 结 果 ， 并 将 在 5.7 节 中 进行 更 深入 的 讨论 。 

尽管 一 些 非 常 先进 的 硬件 预测 机 制 被 提出 ， 但 大 多 数 分 支 预测 系统 都 是 使 用 固定 的 分 支 路 径 ， 即 
“总 是 执行 分 支 ” 或 “总 是 不 执行 分 支 " 。 编 译 器 需要 注意 这 种 特点 ， 它 们 可 以 通过 改变 代码 的 顺序 来 最 
大 化 发 挥 处 理 器 预测 的 正确 性 。 目 前 已 经 有 很 多 这 方面 的 研究 在 继续 进行 。 


5. 2.7 编译 时 流水 线 补 偿 


在 我 们 讨论 分 支 补偿 之 前 ， 还 存在 一 个 问题 ， 即 由 流水 线 阻塞 引起 的 效率 下 降 。 这 个 问题 
与 流水 线 的 构造 和 长 度 有 关 ， 先 来 看 看 这 两 者 之 间 的 关系 。 

在 现代 处 理 器 中 ,三 级 流水 的 流水 线 相 当 少 ， 更 多 的 是 七 级 、 八 级 ， 甚 至 更 多 级 的 流水 
线 ， 并 且 流 水 线 往往 十 分 复杂 。 在 前 面 的 三 级 流水 线 例 子 中 对 角 线 资源 的 浪费 ， 成 为 七 级 流水 
线 的 一 大 难题 ， 严 重 影响 了 处 理 器 的 性 能 和 效率 。 也 许 这 就 是 近 些 年 来 人 们 仍旧 会 花费 大 量 时 
间 和 精力 来 研究 流水 线 的 原因 。 

用 于 提高 流水 线性 能 的 编译 时 策略 涉及 的 范围 很 广 一 一 从 最 微小 的 细节 到 高 度 复杂 的 整 
体 。 为 了 展示 其 中 一 种 普通 但 却 十 分 有 效 的 方法 ， 考 虑 5. 2. 6 节 提 到 的 那个 例子 的 代码 : 


loop: MOV R1, #5 ;R1=5 
AND R4, R3, R1 ;R4=R3 AND Rl1 
SUBS R2, RO, R1 ;R2=R0O-R1 
BGT loop ;如 果 结 果 为 正则 分 支 
NOT R3, R4 


这 段 代 码 的 问题 在 于 取 指 后 续 指 令 之 前 ， 不 能 确定 条 件 分 支 指令 是 否 应 该 执行 分 支 ， 所 以 
必须 等 待 分 支 结果 出 来 后 再 取 指 或 者 是 预测 取 指 。 

但 对 于 这 种 情况 ,我 们 可 以 调整 一 下 代码 的 顺序 ， 使 得 条 件 设置 指令 (SUBS) 和 条 件 指 
令 (BGT) 之 间 稍 微 有 些 空 阶 ， 如 下 所 示 : 


loop: MOV R1, #5 ;R1=5 
SUBS R2, RO, R1 ;R2=R0O-R1 
AND R4, R3, R1 ;R4=R3 AND R1 
BGT loop ;如 果 结 果 为 正则 分 支 
NOT R3, R4 


在 这 个 例子 中 ， 打 乱 代码 的 顺序 并 不 影响 程序 的 最 后 结果 ( 因为 SUBS 的 结果 对 于 AND 的 
执行 并 不 造成 任何 影响 ， 同 样 ，AND 的 结果 对 于 SUBS 的 执行 也 不 造成 任何 影响 ) 。 我 们 来 看 
看 预约 表 : 























无 论 是 否 执行 分 支 ，SUBS 指令 都 会 在 第 3 个 时 钟 周期 的 末尾 更 新 条 件 标 志 位 ， 而 条 件 分 
支 语句 只 需要 在 第 5 个 时 钟 周期 前 得 到 条 件 标志 即 可 。 由 此 ， 在 条 件 标 志 位 改变 和 条 件 分 支 之 
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间 有 充足 的 时 间 ， 不 需要 等 待 条 件 标志 位 发 生 改变 ,使 得 流水 线 的 执行 能 保持 高 效 和 连贯 。 

这 种 改变 代码 来 适应 流水 线 的 方法 对 于 其 他 冒险 ， 如 数据 改变 冒险 、 模 式 改 变 冒 险 也 有 
效 。 当 编译 器 无 法 打 乱 代码 顺序 时 (例如 有 两 个 连续 的 分 支 或 存在 大 量 的 相关 性 )， 编 译 器 会 
插入 一 些 NOP 指令 ， 或 假设 流水 线 会 足够 智能 地 自动 阻塞 一 些 时 钟 周期 来 保证 流水 线 执行 的 
正确 性 。 虽 然 一 些 早期 的 流水 线 要 依赖 于 编译 器 或 编程 人 员 加 入 NOP 指令 来 保证 流水 线 执行 
的 正确 性 ， 但 对 于 现代 处 理 器 来 说 这 种 假设 是 可 行 的 。 


5.2.8 相对 地 址 分 支 


观察 之 前 讨论 过 的 预约 表 ， 可 以 看 到 不 同 的 流水 线 级 是 由 不 同 的 功能 单元 组 成 的 。 预 约 表 
可 以 指出 这 些 功能 单元 什么 时 候 在 工作 。 

执行 级 包含 了 ALU (与 FPU 的 最 大 区 别 在 于 ALU 中 都 是 单 周 期 数值 计算 器 ， 而 FPU 通常 
都 需要 多 周期 执行 ) ， 给 人 的 第 一 感觉 是 在 分 支 指令 中 并 没有 使 用 ALU。 然 而 ， 当 分 支 指令 需 
要 计算 目标 地 址 时 ， 就 需要 用 ALU 来 做 这 些 运 算 ， 这 就 是 相对 地 址 分 支 的 一 种 情况 。 相 对 地 
址 分 支 指 通过 向 前 或 向 后 移动 一 些 地 址 完成 分 支 〈 详 见 框 5. 6 和 第 3 章 ) 。 这 种 分 支 与 程序 计 
数 器 (PC) 有 关 。 它 需要 将 一 个 指定 的 偏 移 量 加 上 PC 值 ， 然 后 将 结果 设置 为 PC 的 新 值 。 
相对 地 址 分 支 

在 ARM 处 理 器 中 ， 指 令 都 是 32 位 的 (地 址 线 和 数据 线 也 是 32 位 的 ， 而 早期 ARM 处 理 器 的 地 址 线 
是 26 位 的 )。 假设 32 位 的 地 址 线 可 以 指定 任意 一 条 指令 (如 分 支 指 令 ) 的 地 址 ， 并 且 为 了 指定 所 有 的 
地 址 ， 地 址 线 的 32 位 全 部 需要 使 用 。 

由 此 ， 对 于 分 支 指令 来 说 ， 不 可 能 32 位 全 部 用 来 存放 地 址 信息 ， 因 为 每 条 指令 都 需要 一 些 位 来 指出 
其 他 的 信息 (如 指出 分 支 指令 类 型 、 分 支 条 件 等 )。 因 此 ，ARM 处 理 器 不 使 用 全 地 址 编码 ， 而 使 用 相对 
地 址 。 

因此 ， 存 放 在 分 支 指令 中 的 值 是 一 个 偏 移 量 ,， 需要 与 当前 程序 计数 器 (PC) 的 内 容 相 加 才能 得 到 分 
支 的 目标 (branch target) 地 址 。 

事实 上 ，ARM 处 理 器 把 分 支 指令 的 偏 移 量 当 成 24 位 有 符号 数 。 还 记得 地 址 都 是 按 字 节 计算 的 吧 ， 
但 对 于 指令 ， 都 是 按 4 字 节 计算 的 。 如 果 所 有 的 指令 都 是 按 4 字 节 地 址 (如 0、4、8、12、1004 等 ) 对 
齐 的 ， 则 任何 分 支 目标 地 址 的 最 低 两 位 都 将 为 0， 所 以 这 两 位 不 需要 存放 在 指令 中 。 

换 名 话说， 这 24 位 数字 指定 的 是 目标 地 址 与 当前 PC 值 前 后 相距 多 少 条 指令 ， 而 不 是 相距 多 少 字 节 。 
这 是 一 个 +32MiB 的 范围 一 一 已 经 大 大 超出 了 ARM 早期 处 理 器 设计 时 台式 计算 机 512KiB 内 存 容量 的 范 
围 ， 但 对 比 今天 的 计算 机 则 小 很 多 。 

事实 上 ， 这 种 分 支 指令 需要 像 加 法 指令 一 样 执行 加 法 操作 : 

ADD PC, PC, #24 
将 向 前 移动 24 字 节 地 址 。 与 之 类 似 : 

ADD PC, PC, #-18 
将 向 后 移动 18 字 节 地 址 。 再 来 看 看 之 前 的 预约 表 ， 很 明显 ， 当 一 个 相对 地 址 分 支 指令 出 现时 ， 
不 管 条 件 执行 与 否 ， 处 理 器 都 需要 等 待 分 支 指令 完成 执行 级 的 操作 并 得 到 下 一 条 指令 的 地 址 
后 ,才能 对 下 一 条 指令 进行 取 指 。 例 如 : 


ADD R2, RO, R1 ;R2=RO+R1 


B +24 ;向 前 跳 24 字 节 地 址 
NOT R3, R4 ;R3=NOT R4 
(分 支 指令 后 24 字 节 ) 


SUB R1, RO, R1 ;R2=R0O-R1 
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使 用 三 级 流水 线 来 执行 以 上 代码 的 预约 表 如 下 : 
| 取 指 和 译 码 | ADD | B x SUB 
执行 指令 
写 回 


时 钟 周期 






















这 个 冒险 涉及 流水 线 的 效率 问题 。 即 使 一 个 分 支 不 是 条 件 性 执行 ， 而 是 相对 地 址 分 支 ， 流 
水 线 也 必须 阻塞 。 对 此 有 两 种 解决 方法 ,一 种 方法 是 为 相对 地 址 分 支 额外 增加 一 个 单独 的 
ALU， 另 一 种 方法 将 在 下 一 节 讨 论 。 


5. 2.9 流水线 的 指令 集 补偿 


由 于 编译 器 可 以 通过 改变 代码 顺序 (如 5. 2.7 节 中 所 讨论 的 ) 来 分 开 条 件 设置 指令 和 条 件 
分 支 指令 ， 因 此 也 可 以 向 指令 集 加 入 这 种 机 制 。 如 在 一 些 早 期 的 MIPS 处 理 器 和 比较 老 的 开 的 
DSP 处 理 中 的 延迟 分 支 (delayed branch) 指令 。 

延迟 分 支 操作 是 将 分 支 延 迟 一 定 的 周期 后 再 执行 ， 所 延迟 的 周期 足够 解决 由 相对 地 址 分 支 
或 由 于 条 件 设置 指令 和 条 件 分 支 距 离 太 近 而 引起 的 问题 。 在 我 看 来 ， 延 迟 分 支 操作 需要 由 汇编 
程序 员 来 实现 ， 通 过 对 所 提 到 的 两 种 处 理 器 编写 代码 ， 我 已 经 意识 到 有 时 需要 忽视 延迟 分 支 机 
制 所 带 来 的 性 能 提升 ， 在 延迟 分 支 指令 后 加 入 两 条 NOP 指令 来 确保 安全 。 正 如 我 们 所 看 到 的 ， 
由 于 观察 不 到 延迟 从 而 产生 的 非 正 常 代 码 将 对 优秀 程序 员 产生 极 大 的 挑战 。 以 下 是 延迟 分 支 的 
代码 例子 : 


loop: MOV R1, #5 :iS 
SUBS R2, RO, R1 ;R2=R0-R1 
BGTD loop . ;条 件 分 支 ， 需 要 延迟 执行 
RND R4, R3, R1 ;R4=R3 AND R1 
NOT R3, R4 ;R2=NOT R4 


NOP 


与 之 前 的 一 些 例子 一 样 ， 这 里 存在 一 个 条 件 分 支 ， 同 时 也 是 一 个 相对 地 址 分 支 。 汇 编 器 会 
把 “BGTD loop” 翻 译 成 “BGTD -2”， 因 为 循环 标志 是 在 分 支 指令 的 前 两 条 指令 上 ， 在 运行 
时 ， 如 果 分 支 执行 ， 则 处 理 器 将 执行 PC =PC -2。 

由 于 分 支 需要 延迟 执行 ， 所 以 需要 知道 被 延迟 多 少 条 指令 ， 这 些 信息 在 指令 集 的 细节 中 可 
以 找到 。 假 设 分 支 被 延迟 两 条 指令 后 执行 ， 这 意味 着 分 支 不 会 发 生 在 包含 BGTD 这 条 指令 的 这 
一 行 ， 而 是 发 生 在 这 条 指令 后 的 第 2 行 ， 即 NOT 和 NOP 之 间 。 让 我 们 观察 如 表 5-1 所 示 的 预 
约 表 。 


表 5-1 预约 表 截 取 了 延迟 分 支 例子 的 12 个 时 钟 周 期 











MOV 








取 指 和 译 码 
执行 指令 











SUBS 
MOV | suBs | BGTD | AND 
| |MOv | suBs | BGTD | AND | NOT 








在 这 12 个 时 钟 周期 里 ,循环 执行 了 两 次 。 在 第 一 次 循环 中 (加 粗 表示 )， 分 支 执 行 ， 而 在 
第 二 次 循环 中 ,分支 没有 执行 。 在 第 3 个 时 钟 周期 首次 遇 到 分 支 指令 时 ， 处 理 器 将 它 取 入 流水 
线 中 ,并 由 于 是 条 件 分 支 ， 需 要 等 待 前 一 条 条 件 设 置 指令 (SUBS) 结束 。 虽 然 执 行 了 分 支 ， 
但 是 分 支 之 后 的 两 条 指令 (AND 和 NOT) 也 被 取 人 流水线 中 ， 而 直到 第 6 个 时 钟 周期 分 支 才 
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， 
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执行 ， 此 时 PC 被 设置 为 “loop” 循 环 标 志 所 在 的 指令 MOV 的 地 址 。 

第 二 次 循环 执行 了 与 第 一 次 相同 的 指令 序列 ， 但 由 于 此 时 不 执行 分 支 ， 因 此 在 NOT 后 的 
指令 由 NOP 取代 了 MOV。 

由 于 这 个 分 支 是 相对 地 址 分 支 ， 所 以 第 一 次 循环 的 BGTD 在 第 4 个 周期 进入 执行 阶段 (使 
用 ALU 计算 分 支 的 目标 地 址 )， 使 得 能 够 及 时 向 PC 提供 分 支 的 目标 地 址 ， 从 而 让 分 支 后 的 指 
令 在 第 6 个 周期 能 被 正确 取 指 。 

预约 表 中 没有 足够 的 空间 用 于 全 效率 地 指定 不 同 分 支 类 型 (条件 分 支 或 非 条 件 分 文 ， 相 对 
地 址 分 支 或 绝对 地 址 分 支 ) 。 

对 于 汇编 程序 员 而 言 ， 必 须 记 住 的 是 分 支 指令 后 的 AND 和 NOT 两 条 指令 ,不管 分 支 是 否 
执行 ， 这 两 条 指令 都 会 被 执行 。 一 般 情 况 下 为 了 避免 混淆 ， 会 用 NOP 指令 来 替代 : 

BD 目标 地 址 

NOP 

NOP 

这 种 方式 会 帮助 初级 编程 人 员 记 住 分 支 是 延迟 执行 的 ， 但 是 这 种 代码 在 效率 上 会 带 来 损 
失 ， 而 编译 器 会 自动 注意 到 延迟 分 支 这 种 特性 。 


5. 2. 10 ”运行 时 流水 线 补偿 


回顾 一 下 5. 2.4 节 中 讨论 的 写 后 写 (WAW)、 先 写 后 读 (RAW) 以 及 先 读 后 写 (WAR) 冒 
险 ， 虽 然 大 部 分 流水 线 处 理 器 能 够 在 运行 时 自动 处 理 这 些 冒 险 而 不 需要 编译 器 干预 ， 但 这 些 冒 险 
其 实 是 可 以 被 编译 器 处 理 掉 的 。 而 那些 使 用 运行 时 方法 来 处 理 这 些 冒 险 的 处 理 器 是 非常 复杂 的 。 

如 果 0(i) 是 受 指 令 i 影 响 的 输出 地 址 集合 (包括 寄存 器 、 内 存 地 址 以 及 条 件 标 志 )，1()) 
是 影响 指令 j 的 输入 地 址 集合 ， 那 么 指令 和 指令 j 之 间 的 冒险 存在 这 样 的 关系 : 

对 于 RAW 冒险 有 : 0O(C mn7OD) 1 名 

对 于 WAR 冒险 有 : 1(i) 0()) 1 多 

对 于 WAW 冒险 有 : 0(i) 0()) 1 名 

一 般 而 言 ， 这 些 冒 险 都 可 以 通过 转发 ( 取 指 - 取 指 ， 写 回 - 写 回 ， 写 回 - 取 指 ) 来 解决 。 
我 们 来 看 一 下 RAW 冒险 的 例子 : 


ADD R2, RO, R3 7R2=RO+R3 
AND R1, R2, #2 ;R1=R2 AND 2 


在 R2 上 存在 冒险 ,在 第 2 条 指令 读 之 前 它 必须 被 第 1 条 指令 写 人 (在 一 条 足够 长 的 流水 
线 上 是 存在 的 ) 。 然 而 ， 我 们 可 以 想象 在 硬件 中 有 一 条 额外 的 路 径 ， 将 第 1 条 指令 的 输出 直接 
送 到 第 2 条 指令 的 输入 ， 如 图 5-6 所 示 ， 只 需 在 将 结果 写 回 给 R2 的 同时 ， 在 执行 单元 (EX) 
增加 一 条 路 径 ， 将 输出 送 回 给 其 中 一 个 输入 。 这 种 方式 高 效 地 传递 了 写 回 级 的 数据 ， 在 数学 上 
与 下 面 的 转换 等 效 : 


R2 = RO+R3; Rl1=R2 & 2 一 Rl=(RO+R3) & 2; R2=RO+R3 





转发 前 面 指令 ( R2 ) 的 结果 


图 5-6 一 条 四 级 流水 线 示意 图 。 它 将 指令 执行 的 结果 直接 转发 至 执行 单元 的 输入 以 作为 
下 一 条 指令 的 输入 ， 而 不 需要 首先 将 结果 存 回 目标 寄存 器 R2 


转发 还 可 以 提高 执行 的 速度 ， 例 如 通过 提高 使 用 片上 寄存 器 的 比例 ， 减 少 读 写 片 外 存储 的 
次 数 。 来 看 以 下 给 出 的 例子 : 
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LDR RO， [#0x1000] ;从 内 存 地 址 0x1000 读 数据 到 RO 
ADD R2, RO, R3 ;R2=RO+R3 


LDR R1L1， [#0x1000] ;从 内 存 地 址 0x1000 读 数据 到 R1 
ADD R3, R2, R1 ;R3=R2+R1 

可 以 改写 成 : 
LDR R1,， [#0x1000] ;从 内 存 地 址 0x1000 读 数据 到 Rl 
RDD R2, Rl1, R3 ; R2=R1+R3 
RDD R3, R2, R1 ; R3=R2+R1 


这 个 取 指 - 取 指 转发 〈fetch-feteh forwarding) 例子 将 执行 速度 提高 了 25% ， 而 不 需要 在 编 
译 时 或 运行 时 进行 任何 优化 。 写 回 - 写 回转 发 〈store-store forwarding) 也 会 在 读 内 存 时 产生 类 
似 的 效果 。 

需要 注意 的 是 ， 一 般 情 况 下 多 次 读 写 还 包含 了 与 内 存 映射 外 设 〈《memory- mapped peripher- 
al) 的 通信 ， 如 UART ”， 它 会 出 现 对 一 个 相同 的 地 址 〈 如 串 行 字 节 输出 寄存 器 ) 进行 多 次 
写 的 情况 ， 如 果 是 RAM， 这 种 写 操作 就 会 造成 浪费 。 在 C 语言 中 ,这 种 地 址 指针 需要 用 关 
键 字 volatile 声明 以 避免 编译 器 将 其 优化 掉 (原因 可 以 参考 7. 8.2 节 )。 对 于 运行 时 代码 组 
织 ,一 个 智能 的 处 理 器 会 检测 到 这 种 特殊 的 地 址 不 在 正常 内 存 地 址 范围 内 ， 从 而 不 进行 这 
种 优化 。 

以 下 人 工 编制 的 代码 段 给 出 了 一 个 最 终 的 数据 转发 例子 : 


指令 1 LDR RO， [ml] ;从 内 存 地 址 m1 取 数 据 放 入 RO 

指令 2 ADD R0，R0， [m2] ;R0=R0+ 内 存 地 址 m2 的 内 容 

指令 3 MUL R0，R0， [m3]  ;R0=R0x 内 存 地 址 m3 的 内 容 

指令 4 STR RO， [m4] ;将 R0 的 内 容 存 到 内 存 地 址 m4 上 

图 5-7 的 上 半 部 表示 了 这 段 代 码 ， 代 码 中 的 操作 涉及 了 8 个 数据 的 传输 ， 图 的 下 半 部 对 这 
段 代码 进行 了 优化 ， 只 涉及 5 个 数据 的 传输 。 在 两 种 情况 下 ， 传 输 所 归属 的 指令 都 已 经 标 出 。 
对 于 两 个 图 示 的 操作 ， 所 得 到 的 结果 是 一 致 的 ， 并 且 原 始 代码 也 相同 ， 但 是 执行 的 速度 和 资源 
的 利用 差别 很 大 。 在 运行 时 ， 转 发 的 原则 是 最 小 化 时 间 消 耗 以 及 数据 传输 资源 的 使 用 ， 以 此 来 
提高 执行 的 速度 。 








8 个 数据 需要 传输 
5 个 数据 需要 传输 


图 5-7 一 个 执行 简单 算术 运算 的 例子 。 上 部 没有 采用 数据 转发 ， 
而 下 部 采用 数据 转发 减少 了 内 存 读 取 的 操作 


运行 时 补偿 的 缺点 是 : 需要 额外 的 硬件 支持 ， 导 致 功 耗 、 面 积 增 加 ， 由 此 提高 了 每 个 处 理 
器 的 价格 。 然 而 ， 单纯 从 性 能 上 考虑 ,或 者 当 需 要 考虑 向 后 兼容 性 时 ， 除 去 编译 时 加 速 的 方法 
外 ， 运 行 时 方法 是 合适 的 。 


UART: 通用 异步 收发 器 (Universal Asynchronous Receiver/Transmitter) ， 通 常 称 为 串口 (serial port) 。 
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5.3 复杂 指令 集 和 精简 指令 集 


3.2.6 节 介 绍 了 RISC (精简 指令 集 ) 和 CISC (复杂 指令 集 ) 体系 结构 的 对 比 ， 并 将 RISC 
处 理 器 作为 处 理 方式 发 展 的 丹 峰 。RISC 处 理 器 起 源 于 一 个 简单 的 控制 单元 ， 然 后 逐渐 转向 微 
指令 ,最终 将 微 指 令 (精简 指令 ) 运用 到 整个 CPU 上 ， 从 而 形成 了 RISC 体系 结构 。 

由 此 ，RISC 处 理 器 广义 上 指 的 是 那些 比 普通 处 理 器 指令 少 且 指令 简单 的 处 理 器 。 一 般 公 

认 100 条 指令 是 RISC 处 理 器 的 上 限 。 然 而 ， 从 RISC 处 理 器 问世 至 今 ， 经 过 了 这 么 多 年 的 发 
展 ，RISC 处 理 器 更 多 的 特征 显现 出 来 ， 需 要 注意 的 是 ， 抛 开 硬 件 实现 和 速度 的 条 条 框框 ， 这 
些 特征 大 多 来 源 于 设计 公司 的 市 场 部 门 : 

。 单 周期 。 这 不 仅 可 以 降低 处 理 器 设计 的 
难度 ， 提 高 指令 集 的 规整 度 ， 还 减少 了 中 断 的 响应 时 间 (将 在 6.5 节 讨 论 ) 。 实 际 中 ， 
许多 RISC 处 理 器 都 对 这 一 点 有 所 放宽 ， 例 如 在 ARM 体系 结构 上 ， 存 / 取 指 令 (STM/ 
LDM) 需要 多 个 周期 来 完成 。 

。 指令 不 需要 解释 一 一 这 是 指 指令 执行 不 需要 片上 解释 器 ， 因 为 每 一 条 指令 都 与 处 理 器 
上 一 个 特定 的 物理 硬件 直接 关联 。 

。 指令 集 规整 一 一 观察 一 个 普通 CISC 处 理 器 的 指令 集 可 以 发 现 ， 指 令 间 极 少 存在 共性 。 
不 同 指令 的 相同 位 域 往往 意味 着 完全 不 同 的 内 容 。 有 些 指令 可 以 访问 一 个 寄存 器 ， 而 
有 些 则 不 行 。 这 些 都 会 加 大 汇编 人 员 编 程 的 难度 ， 同 时 也 增加 了 片上 译 码 单元 的 面积 。 
相反 ，RISC 处 理 器 拥有 一 套 十 分 规整 的 指令 集 ， 指 令 译 码 简单 得 多 。 

。 规整 的 寄存 器 和 总 线 一 一 有 助 于 指令 集 规整 的 一 个 方法 是 保持 一 个 (最 好 大 一 些 ) 独 
立 的 寄存 器 组 ， 这 些 寄存 器 需要 有 相同 的 数据 范围 和 操作 方法 。 在 CISC 处 理 器 中 ， 为 
了 和 弄 清 楚 如 何 使 用 最 少 的 指令 在 不 同 的 功能 单元 之 间 传 送 数 据 ， 需 要 能 观测 到 内 部 总 
线 结构 。 而 这 对 于 RISC 处 理 器 来 说 则 非常 简单 : 只 要 一 个 寄存 器 可 以 “看 到 ”一 个 
数据 ， 那么 其 他 所 有 的 寄存 器 都 能 “看 到 ”这 个 数据 。 

。 存 / 取 体系 结构 一 一 由 于 内 存 比 寄存 器 慢 得 多 ， 因 此 通常 很 难 做 到 在 一 个 很 快 的 时 钟 周 
期 内 从 一 个 内 存单 元 取 数 ， 对 这 个 数 做 运算 ,然后 再 将 结果 存 回 内 存 中 。 事 实 上 ， 避 
免 内 存 访问 成 为 瓶颈 的 最 好 方法 是 ， 保 证 在 发 生 一 个 外 部 存 / 取 操作 时 ， 没 有 其 他 导致 
指令 执行 变 慢 的 动作 发 生 。 因 此 ， 就 应 该 分 别 有 一 条 指令 进行 读 操 作 以 及 一 条 指令 进 
行 写 操作 ， 而 所 有 的 数据 操作 都 只 发 生 在 寄存 器 上 或 是 只 有 立即 数 。 

正如 前 文 所 述 ， 没 有 统一 定义 什么 是 RISC， 什 么 是 CISC， 并 且 许 多 现代 处 理 器 的 设计 都 

[193] ”同时 采用 了 二 者 的 设计 思想 。 


5.4 超标 量 体 系 结构 

随 着 以 性 能 为 主导 的 流水 线 技术 的 发 展 ， 除 了 RISC 所 带 来 的 简洁 性 外 ， 流 水 线 的 复杂 度 
在 不 断 提高 。 现 在 的 研究 大 部 分 涉及 多 功能 动态 流水 线 ， 并 且 包 含 了 更 多 用 户 自 定义 的 特殊 指 
令 ， 伴 随 而 来 的 是 控制 复杂 度 的 提高 。 

伴随 流水 线 复 杂 度 提高 的 还 有 冒险 的 增加 ， 由 此 冒险 的 检测 和 运行 时 冒险 的 解决 变 得 越 来 
越 重 要 。 这 些 都 显著 地 提高 了 流水 线 管理 对 硬件 资源 的 要 求 。 


5.4. 1 简单 超标 量 


解决 不 断 增 加 的 流水 线 复 杂 度 有 这 样 一 种 方案 ， 流 水 线 仍 旧 按 照 简单 线性 布局 ， 但 在 执行 
级 含有 多 个 功能 单元 。 如 此 ， 指 令 仍旧 以 串 行 顺序 执行 ， 但 在 执行 级 会 经 过 不 同 的 路 径 。 
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通常 情况 下 ， 执 行 级 是 流水 线 上 最 耗 时 的 部 分 ， 而 最 耗 时 的 部 分 则 称 为 流水 线 的 瓶颈 。 由 
此 ， 在 一 个 超标 量 流水 线 系统 上 ， 取 指 单元 会 以 比 执行 级 上 任何 单个 执行 单元 吞吐 率 都 高 的 速 
率 将 指令 发 送 到 流水 线 中 ， 执 行 单 元 的 多 个 副本 将 会 轮流 处 理 指令 。 图 5-8 展示 了 这 样 一 个 五 
级 流水 线 。 





图 5-8 一 个 五 级 超标 量 流水 线 的 示意 图 ， 其 执行 级 带 有 多 个 功能 单元 


这 种 方法 最 先 在 DSP 上 采用 ， 其 含有 多 个 乘 累 加 单元 ( MAC)，, 但 这 种 方法 只 有 在 通用 
CPU 上 采用 时 才 被 正式 地 称 为 超标 量 。 

如 图 5-8 所 示 ， 这 条 超标 量 流水 线 加 入 了 浮 点 运算 单元 (FPU)。FPU 的 缺点 是 ， 将 它 放 
在 一 条 线性 流水 线 上 (有 固定 的 指令 时 钟 频率 ) 会 严重 影响 处 理 器 的 速度 。 但 对 于 超标 量 处 
理 器 ， 发 送 至 FPU 的 指令 可 以 与 其 他 如 ALU 的 指令 、 乘 法 单元 的 指令 等 并 行 执行 。 目 前 新 研 
制 的 超标 量 处 理 器 通常 包含 8 个 ALU 和 16 个 MAC， 或 者 是 多 个 ALU 和 4 个 FPU。 

如 表 5-2 所 示 的 预约 表 是 超标 量 流水 线 的 一 个 例子 。 该 流水 线 包 含 1 个 取 指 和 译 码 单元 ， 
每 个 时 钟 周期 发 出 一 条 指令 。 指 令 被 发 送 至 4 个 功能 单元 (2 个 ALU、1 个 FPU 和 1 个 MUL)。 
流水 线 示 端 由 1 个 写 回 单元 结束 。 观 察 表 5-2， 可 以 注意 到 取 指 单元 发 送 指 令 的 速度 比 流水 线 
执行 级 上 任何 单元 处 理 指 令 的 速度 都 快 ， 并 且 相 比 指令 输入 顺序 ， 写 回 单元 可 以 乱 序 执行 。 并 
不 是 所 有 的 处 理 器 都 支持 乱 序 执行 ， 它 需要 处 理 器 支持 复杂 的 运行 时 冒险 规避 硬件 (runtime 
hazard-avoidance hardware) 。 我 们 将 在 5. 9 节 对 一 种 支持 乱 序 执行 的 处 理 器 进行 讨论 ， 即 Toma- 
sulo 方法 ， 而 框 5.7 则 简要 介绍 了 另 一 种 方法 一 一 记分 牌 。 

表 5-2 预约 表 截 取 了 一 个 超标 量 流水 线 工 作 的 12 个 时 钟 周期 。 需 要 注意 第 2 个 MUL 指令 在 第 6 

个 周期 停止 了 取 指 单元 ， 直 至 第 10 个 时 钟 周期 ， 而 在 这 期 间 MUL 单元 是 空闲 的 


取 租 和 主 码 [ADD [SUB [AND, [FADD [NOT [MUU [MUD on | ~ | [NOR TAND [NOT 
Dr ER 








| | | JE 
一 一 一 DT 
同名 网 期 | | 1 | 213 ||s| 7 Is | Tw lw 
注 : 该 流水 线 所 用 的 CPU 资源 如 下 。 

1 个 取 指 和 译 码 单 元 ， 每 个 时 钟 周期 发 出 1 条 指令 

2 个 ALU 单元 ， 每 个 单元 需要 2 个 周期 才能 完成 1 条 指令 

1 个 FPU 单元 ， 需 要 3 个 周期 才能 完成 FADD 指令 。 

1 个 MUL 单元 ， 需 要 4 个 周期 才能 完成 1 条 指令 。 

1 个 存储 结果 单元 ， 采 用 单 周期 存储 每 条 指令 的 结果 。 


记分 牌 
记分 牌 (scoreboard) 用 来 记录 所 有 被 处 理 指令 的 相关 性 ， 并 且 多 许 此 刻 没有 相关 性 的 指令 能 够 进入 


流水 线 执行 ， 这 需要 打 乱 原 有 代码 的 顺序 。 下 面 我 们 对 此 进行 详细 讨论 。 
发 送 指令 时 ， 处 理 器 根据 指令 确定 其 所 用 的 源 和 目标 操作 数 寄存 器 ， 然 后 阻塞 ， 直 至 遇 到 两 种 情况 ; 








1) 其 他 对 相同 寄存 器 进行 写 操作 的 指令 执行 完毕 ; 2) 所 需 的 功能 单元 可 用 。 这 两 个 条 件 正好 分 别 消除 
了 WAW 冒险 和 结构 冒险 。 

一 旦 一 条 指令 被 发 送 至 一 个 功能 单元 ， 操 作 数 就 会 从 指令 源 寄存 器 取出 ， 但 取出 过 程 被 阻塞 至 当前 
任 一 条 写 源 寄存 器 的 指令 执行 完毕 ， 如 此 可 以 避免 RAW 冒险 。 

收集 完 所 有 的 操作 数 后 ， 指 令 开始 执行 (此 时 记分 牌 会 一 直 记 录 该 条 指令 直至 该 指令 处 理 完毕 ) 。 

最 后 ， 指 令 执 行 完毕 并 准备 好 将 结果 写 回 目标 寄存 器 。 然 而 此 时 ， 如 果 先 前 已 发 送 的 指令 还 没有 将 操 
作 数 从 当前 将 要 写 回 的 寄存 器 取出 ， 将 会 阻塞 写 回 。 换 句 话说， 如果 先前 的 指令 仍旧 被 阻塞 以 等 待 执行 ， 
并 且 需 要 从 Rx 寄存 器 取 操 作 数 ， 而 当前 的 指令 需要 对 Rx 寄存 器 进行 写 回 ， 那 么 当前 的 指令 将 会 被 延迟 ， 
直到 先前 的 指令 不 再 被 阻塞 并 已 经 从 Rx 寄存 器 中 取出 操作 数 后 才能 写 回 。 这 种 机 制 避 免 了 WAR 冒险 。 

虽然 表 5-2 的 程序 例子 很 短 , 但 可 以 看 到 流水 线 的 指令 输出 率 比 输 入 率 低 ， 这 是 因为 流水 
线 需要 暂停 以 保证 有 空闲 处 理 单 元 去 执行 指令 。 因 此 在 处 理 现 实 程 序 代 码 时 ， 这 种 处 理 器 需要 
有 比 平均 指令 吞吐 率 高 的 峰值 指令 吞吐 率 。 在 标准 测试 中 ,厂商 可 能 会 人 为 生成 使 处 理 器 运行 
在 峰值 吞吐 率 而 不 是 实际 平均 吞吐 率 的 指令 序列 (我 们 已 经 在 3.5.2 节 有 过 简单 的 讨论 ) 。 

然而 ， 对 超标 量 的 讨论 并 未 结束 ， 事 实 上 这 也 不 是 超标 量 系 统 的 常态 ， 我 们 将 在 5.4.2 节 
中 继续 讨论 在 每 个 时 钟 周期 同时 处 理 多 条 指令 的 超标 量 流水 线 。 


5.4.2 多 发 送 超标 量 


在 5.4.1 节 ， 我 们 已 经 将 多 个 功能 单元 加 入 标量 流水 线 中 ， 虽 然 比 一 般 标 量 流水 线 好 一 
些 , 但 是 这 并 没有 真正 成 为 一 个 超标 量 流水 线 。 | 

简单 超标 量 流水 线 的 好 处 就 是 它 能 够 在 每 个 时 钟 周期 同时 发 送 多 条 指令 。 也 就 是 说 ， 相 比 
每 个 时 钟 周期 向 多 个 功能 单元 发 送 一 条 指令 ， 超 标量 流水 线 能 够 每 个 时 钟 周期 向 多 个 功能 单元 
发 送 多 条 指令 。 

对 比 图 5-8 并 没有 什么 显著 变化 ， 然 而 在 每 个 时 钟 周 期 发 送 多 条 指令 却 会 产生 不 同 的 预约 
表 。 虽 然 与 之 前 的 预约 表 很 相似 ， 但 是 在 每 个 时 钟 周期 有 两 个 用 于 取 指 和 译 码 以 及 写 回 的 空 
间 ， 并 且 与 我 们 以 后 将 遇 到 的 预约 表 也 完全 不 同 。 

下 边 的 执行 表 展 示 了 在 每 个 周期 进行 两 次 取 指 。 这 个 取 指 单元 向 3 个 不 同 的 执行 单元 发 送 
指令 ， 这 些 执行 单元 轮流 使 用 两 个 写 回 单元 。 有 趣 的 是 ,在 第 3 个 时 钟 周期 和 第 5 个 时 钟 周 
期 ， 流 水 线 上 分 别 有 两 个 明显 的 空 除 。 在 这 两 个 时 钟 周期 上 ， 第 二 个 取 指 和 译 码 单元 不 能 够 取 
新 指令 。 这 是 因为 ， 在 这 两 种 情况 下 ， 先 前 取 到 的 指令 因为 在 等 待 被 占用 的 功能 单元 (两 种 情 
况 下 都 是 执行 单元 1) 而 没有 发 送 。 相 反 ， 它 会 停止 取 指 单元 ， 直 到 所 需 的 功能 单元 可 用 。 











执行 单元 1 
执行 单元 2 
执行 单元 3 





















































至 此 我 们 已 经 为 不 同 的 流水 线 操作 制作 了 很 多 与 上 表 类 似 的 预约 表 ， 然 而 还 有 其 他 制作 预 
约 表 的 方法 ， 在 图 5-9 中 就 给 出 了 其 中 一 种 。 图 中 按 顺 序 从 上 到 下 显示 发 送 的 指令 ， 横 坐标 轴 
表示 时 间 。 在 这 个 例子 中 ,流水 线 上 并 没有 出 现 阻塞 ， 所 以 所 有 的 指令 都 按 顺序 执行 并 且 按 顺 
序 完成 。 然 而 现实 中 不 需要 都 这 样 执行 。 


提高 CPU 性 能 133 





Li | 二 | Sa | 

Ls || | 国 到 到 | Ss | 
[ 取 指 | 二 | sa | 
Lm | #s | | 


|| # | a | 
Li | #s | a |] 
取 指 执行 ] 


se | | 





图 5-9 预约 表 的 另外 一 种 格式 ， 显 示 了 指令 按 顺 序 从 上 往 下 执行 ， 在 时 间 上 是 从 左 往 右 。 
垂直 方向 的 直线 与 我 们 之 前 看 到 的 预约 表 一 样 表 示 了 在 某 一 时 刻 流水 线 的 操作 


5.4.3 超标 量 的 性 能 


超标 量 体 系 结构 的 一 个 特征 是 它 发 送 指令 的 速度 与 处 理 指令 的 速度 相当 。 理 论 上 ， 超 标量 
处 理 器 并 不 需要 支持 流水 线 ， 但 是 在 现实 中 ， 几 乎 所 有 的 超标 量 处 理 器 都 是 流水 线 的 。 

任何 事物 都 取决 于 用 什么 性 能 指标 去 衡量 它 (在 3.5.2 节 有 讨论 ) 。 我 们 已 经 提 到 过 ， 超 
标量 处 理 器 需要 能 够 高 速 发 送 指令 ,虽然 现实 中 平均 指令 发 送 率 比 峰值 要 低 ， 但 这 主要 取决 于 
执行 单元 的 占用 率 。 从 这 种 局 限 性 出 发 ， 可 以 通过 改变 编译 器 设置 将 使 用 不 同类 型 功能 单元 的 
指令 进行 交错 来 提高 指令 发 送 率 。 指 令 发 送 率 主要 取决 于 所 处 理 任务 的 性 质 。 

最 好 的 情况 可 以 在 图 5-9 中 看 到 ， 超 标量 处 理 器 可 以 并 行 处 理 指 令 。 这 也 是 一 种 并 行 计算 
机 的 形式 〈 在 5.8 节 我 们 将 会 有 更 细致 的 探讨 ) 。 


5.5 每 周期 的 指令 数 

每 周期 的 指令 数 (IPC) 至 少 在 理论 上 是 一 个 非常 重要 的 衡量 处 理 器 执行 程序 快慢 的 指 
标 ， 但 IPC 并 不 能 衡量 每 周期 做 多 少 工作 ， 因 为 这 还 取决 于 每 条 指令 能 做 多 少 工作 以 及 编程 人 
员 和 编译 器 的 能 力 。 因 此 ， 在 不 同 的 机 器 上 比较 代码 的 执行 速度 也 是 没有 意义 的 。 

然而 IPC 是 一 个 有 用 的 指标 ， 它 是 通过 典型 代码 得 到 的 平均 数据 ， 可 以 指出 某 一 种 体系 结 
构 原始 的 处 理 能 力 。 事 实 上 ， 平 均值 与 CPI 峰值 的 比率 可 以 作为 一 个 直观 的 衡量 单位 ， 一 个 非 
常 接近 峰值 的 平均 值 表明 某 体系 结构 对 所 执行 的 代码 是 非常 优化 的 。 


5.5.1 不 同体 系 结构 的 IPC 


不 同类 型 的 处 理 器 的 IPC 值 不 一 样 ， 并 且 因 为 结构 不 同 而 导致 的 工作 方式 也 不 一 样 : 

。 CISC 处 理 器 ”IPC 值 远 低 于 1， 这 是 因为 它们 的 指令 相对 来 说 都 很 耗 时 ， 而 且 在 发 展 
史上 也 极 少 去 对 这 种 体系 结构 的 指令 进行 简化 。 

。 RISC 处 理 器 ” 相 比 之 下 ，IPC 值 可 以 达到 1， 虽然 在 不 同情 况 下 可 能 达 不 到 这 个 值 。 
达 不 到 1 的 原因 包含 : 偶尔 出 现 的 元 长 指令 (如 乘法 、 除 法 等 ) 以 及 取 / 存 指令 需要 等 
待 慢 速 的 外 部 存储 器 一 一 RISC 处 理 器 几乎 都 是 取 数 - 存 数 机 器 (参见 3.2.3 节 )。 后 
一 种 因素 在 DSP 处 理 器 使 用 外 部 存储 器 时 常会 涉及 。 流 水 线 可 以 帮助 RISC 处 理 器 的 
IPC 更 接近 1。 

。 超标 量 处 理 器 ”我们 已 经 知道 ， 超 标量 处 理 器 能 够 并 行 发 送 多 条 指令 。 对 于 一 个 拥有 
n 个 指令 发 送 单元 的 机 器 ( 即 每 个 时 钟 周 期 最 多 能 够 发 送 n 条 指令 ) ， 它 的 IPC 能 够 达 
到 nn。 然 而 在 5.4.2 节 中 我 们 已 经 看 到 ， 如 果 一 段 指令 都 需要 相同 的 功能 单元 〈 硬 件 相 
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关 ) 或 者 存在 数据 相关 问题 ， 都 将 导致 流水 线 停顿 。 显 然 ， 流 水 线 的 停顿 越 多 ， 超 标 
量 处 理 器 的 IPC 值 就 会 越 低 。 

。 VLIW s/EPIC 处 理 器 5. 10 节 中 将 讨论 VLIW 和 EPIC 处 理 器 ， 二 者 的 IPC 都 远 远 大 
于 1.0。 它 们 适用 于 专用 领域 ， 如 多 媒体 处 理 和 信号 处 理 。 

。 并 行 机 器 ”在 一 台 计 算 机 上 包含 两 个 或 多 个 处 理 嚣 核 ， 虽然 每 个 处 理 器 核 的 IPC 不 高 ， 
但 在 并 行 执行 时 会 有 很 高 的 吞吐 率 。 由 此 ， 整 台 机 器 的 IPC 就 等 于 每 个 处 理 器 核 的 IPC 
乘 以 处 理 器 核 的 数量 。 我 们 将 在 下 面 做 更 深入 的 讨论 。 

提高 PC 是 当前 许多 处 理 器 设计 人 员 的 主要 关注 点 ， 并 且 也 是 计算 机 体系 结构 设计 师 用 于 
提高 机 器 性 能 的 主要 方法 。 

在 写本 书 的 时 候 ， 并 行 机 器 非常 有 吸引 力 ， 这 源 于 主要 的 处 理 需 制造 商 〈 如 Intel) 的 推 
动 ， 他 们 开发 出 了 更 高 层次 的 并 行 。 在 5. 8 节 中 将 对 并 行 计算 方法 进行 更 全 面 的 讨论 。 简 而 言 
之 ， 目 前 制造 商 们 在 通过 提高 处 理 器 体系 结构 复杂 度 来 提高 处 理 器 时 钟 频 率 的 方法 上 遇 到 了 一 个 
转折 点 : 不 论 使 用 什么 方法 ， 都 不 能 使 得 性 能 的 提高 和 体系 结构 复杂 度 的 提高 等 价 。 换 句 话说 ， 
使 用 更 改 硅 栅 结 构 或 在 CPU 内 设计 更 精妙 的 结构 的 方法 来 提高 处 理 器 的 性 能 已 经 变 得 越发 困难 。 

如 果 对 以 上 我 们 所 描述 的 那些 方法 进行 更 深入 的 讨论 ， 将 会 看 到 现代 的 计算 机 体系 结构 设 
计 师 不 断 将 日 益 增 长 的 性 能 需求 转嫁 到 编译 器 和 软件 上 。 让 我 们 归纳 一 下 : CISC 处 理 器 在 硬 
件 上 实现 了 很 多 操作 。 相 反 ，RISC 处 理 器 通过 使 用 简单 的 指令 简化 了 《也 加 速 了 ) 硬件 。 
RISC 意味 着 更 多 的 软件 指令 ， 但 会 执行 得 更 快 。 所 以 RISC 程序 一 般 会 比 CISC 程序 长 ， 同 时 
其 编译 器 也 比 CISC 的 复杂 一 些 。 超 标量 系统 在 流水 线 上 实现 了 一 些 有 限 的 并 行 ， 而 为 了 避免 
流水 线 停顿 ， 其 处 理 数 据 相 关 性 的 问题 也 变 得 十 分 重要 。 因 此 ， 为 了 获得 好 的 性 能 ， 超 标量 的 
编译 器 必须 要 考虑 相关 性 问题 ， 并 且 要 熟知 超标 量 流水 线 的 能 力 。 接 下 来 将 会 讨论 的 VLIW 和 
EPIC， 比 目前 任何 我 们 所 讨论 的 体系 结构 都 要 复杂 ， 并 且 完 全 要 依赖 于 编译 器 的 调度 。 

对 于 并 行 机 器 也 是 这 样 。 虽 然 处理 器 本 身 可 能 十 分 简单 ， 但 是 它们 之 间 的 互联 关系 变 得 十 
分 复杂 。 而 且 现 在 存在 这 样 的 问题 一 一 当前 的 软件 工程 师 能 否 将 软件 都 写成 并 行 的 。 除 去 编程 
人 员 的 因素 ， 还 存在 当前 最 流行 的 编程 语言 并 没有 针对 并 行 处 理 器 进行 任何 优化 这 样 的 问题 。 
这 样 看 来 ， 在 并 行 机 器 被 完全 开发 出 来 之 前 ， 要 先 满足 两 个 条 件 : 1) 有 新 一 代 的 能 够 写 并 行 
代码 的 软件 工程 师 ; 2) 有 新 一 代 支 持 并 行 计算 机 的 编程 语言 及 相关 工具 。 

关于 并 行 处 理 还 有 一 点 要 注意 的 是 ， 虽 然 “ 转 向 并 行 ”成 为 当前 处 理 器 制造 商 持续 满足 
不 断 增长 的 性 能 需求 的 有 效 手段 ， 但 获得 所 需 的 加 速 还 需要 编程 人 员 的 支持 。 对 于 一 个 独立 的 
程序 ， 这 种 加 速 是 难以 获得 的 。 然 而 ， 特 别 是 对 于 服务 器 或 台式 机 ， 它 们 运行 的 是 多 任务 操作 
系统 ， 如 Linux， 通 常会 有 多 个 线程 〈 任 务 ) 同时 执行 。 并 行 机 器 会 将 不 同 的 线程 划分 到 不 同 
的 处 理 器 上 执行 ， 对 于 单个 线程 ， 虽 然 从 CPU 时 间 上 讲 并 不 会 运行 得 更 快 ， 但 由 于 不 用 与 其 
他 任务 分 享 时 隙 和 优先 权 ， 所 以 它 会 完成 得 更 快 。 在 舱 入 式 系 统 中 ， 在 一 段 时 间 内 通常 只 有 少 
数 几 个 任务 在 执行 或 只 有 一 个 任务 在 执行 ， 因 此 使 用 并 行 技术 很 难 获得 性 能 提升 。 在 这 种 系统 
中 ， 只 有 当 关 键 任务 本 身 是 能 够 并 行 化 > 的 ， 才 能 够 得 到 加 速 。 这 又 重新 回 到 那个 话题 ,需要 
好 的 并 行 工 具 和 语言 给 好 的 并 行 编程 人 员 使 用 。 


5. 5.2 |IPC 度量 
正如 我 们 在 5.4.3 节 和 其 他 部 分 (包括 3.5.2 节 ) 所 提 到 的 ， 处理 器 运行 所 获得 的 性 能 是 





加 VLIW (Very Long Instruction Word): 超 长 指令 字 。 
回 ”EPIC (Explicitly Parallel Instruction Computing) : 显 式 并 行 指令 计算 。 
加 并 行 化 (parallelised) : 使 程序 可 并 行 执行 。 
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不 能 和 所 预测 的 性 能 相提并论 的 。 如 果 工 程 师 想 执行 一 个 已 知 的 算法 ， 可 以 将 该 算法 分 别 运行 
在 不 同 的 体系 结构 上 ， 看 看 哪个 执行 得 更 快 。 然 而 ， 对 于 非特 定 代码 的 性 能 预测 依赖 于 很 多 因 
素 ， 但 可 以 这 样 估计 : 将 IPC 除 以 指令 周期 频率 ， 再 乘 以 所 需 执 行 的 指令 数 。 

随 着 程序 大 小 和 普遍 性 的 提高 ， 这 种 定义 变 得 更 准确 。 需 要 记 住 的 是 ， 骨 入 式 系统 的 计算 
任务 通常 小 而 且 固定 ; 相反 ， 运 行 在 台式 机 或 服务 器 上 的 代码 通常 在 设计 时 很 难 预测 。 

问题 随 之 产生 : IPC 数据 是 否 精确 ?对 于 任意 体系 结构 ， 都 有 特定 的 规定 来 提高 IPC 准确 
性 ， 下 面 是 其 中 的 一 些 : 

。 使 用 峰值 IPC 而 不 是 平均 IPC 来 得 到 最 佳 情况 下 的 数据 。 

。 使 用 特定 测试 代码 而 不 是 具有 全 局 代表 性 的 代码 来 获得 平均 IPC。 

。 用 于 获得 IPC 的 执行 指令 全 部 来 自 内 部 存储 器 。 

。 需要 使 用 外 部 存储 器 时 ， 仅 考虑 在 时 钟 频率 低 时 获得 的 IPC (由 于 处 理 器 时 钟 频 率 很 

慢 ， 因 此 访问 外 存 的 速度 不 足以 影响 IPC 的 值 ) 。 

。 在 选择 代码 时 ， 不 使 用 或 极 少 使 用 慢 速 指令 来 评估 IPC。 

。 移 除 已 知 的 慢 速 代码 段 。 

通过 本 书 的 讨论 ， 读 者 应 该 能 意识 到 不 同 的 体系 结构 都 有 自己 的 优 缺 点 。 然 而 为 特定 的 计 
算 任务 选择 合适 的 处 理 器 不 仅 是 一 门 科学 ， 更 是 一 门 艺术 : 这 需要 一 定 的 直觉 。 在 作者 看 来 ， 
需要 忽略 与 性 能 相关 的 市 场 和 销售 因素 。 性 能 极 少 成 为 关键 性 准则 ， 其 重要 性 往往 比 不 过 易 编 
程 性 、 可 扩展 性 、 可 获得 的 支持 和 开发 工具 、 产 品 寿命 ， 以 及 其 他 技术 因素 。 


5.6 硬件 加 速 器 


在 现代 CPU 中 ， 大 部 分 的 硅 片 面积 都 是 专门 用 来 加 速 基本 的 处 理 操 作 的 。 加 速 方法 包括 : 
使 用 高 速 缓存 ， 为 体系 结构 添加 额外 的 总 线 、 流 水 线 ， 以 及 混合 专门 的 数值 处 理 单 元 。 

起 初 ， 处 理 器 只 包含 了 一 个 基本 ALU 来 对 数值 进行 处 理 (可 以 看 到 ， 所 有 的 操作 都 可 以 
通过 ALU 来 完成 ， 只 要 执行 速度 不 是 太 重要 )。 然 后 ， 加 入 了 乘 累 加 单元 以 加 快 乘法 操作 ， 其 
通过 反复 相 加 来 实现 乘法 。 

浮 点 计算 模块 曾经 作为 额外 的 可 选 配置 ， 需 要 插入 一 个 单独 的 芯片 ， 但 现在 却 被 当 作 人 台式 
机 的 标准 配置 。 与 浮 点 模块 相同 的 是 ， 人 台式 处 理 器 现在 按 常规 都 包含 SIMD 硬件 (参见 2.1.1 
节 ) ， 并 且 已 经 开始 为 支持 无 线 网 络 而 整合 了 不 同 的 硬件 加 速 器 。 

其 他 的 硬件 加 速 器 还 包含 了 图 形 控制 、 加 密 、 通 信 以 及 数据 压缩 。 目 前 看 来 ， 硬 件 加速 器 
的 种 类 还 在 不 断 扩大 ， 并 且 还 可 以 为 特定 应 用 提供 加 速 一 一 尤其 是 在 专门 的 嵌入 式 片上 系统 处 
理 器 中 。 

另外 ， 硬 件 加 速 还 对 体系 结构 做 了 改进 ， 从 而 提高 了 处 理 的 速度 ， 而 这 种 提高 是 与 数据 无 
关 的 。 在 之 前 的 讨论 中 已 经 提 到 了 一 些 ， 如 流水 线 (5.2 节 ) 、 高 速 缓存 (4.4 节 ) 、 多 总 线 体 
系 结构 (4. 1 节 ) 以 及 自 定义 指令 (3.3 节 )。 本 节 将 对 更 多 此 类 的 硬件 加 速 机 制 进 行 讨论 。 


5. 6.1 零 开 销 循 环 


许多 算法 都 包含 了 循环 ， 如 for() 、while() 以 及 do()。 总 体 来 说 ,循环 控制 都 需要 有 开 
销 。 考 虑 以 下 给 定 循环 次 数 的 循环 例子 : 
4=205 
while (i-- > 0) 
{ 
< 循环 体 > 


[201 





202 
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这 串 代码 需要 以 下 操作 步 又: 

1) 设置 1=20。 

2) 比较 i 是 否 为 0。 

3) 如 果 等 于 0， 则 分 支 至 循环 体 后 的 指令 。 

4) i=i-1。 

5) 执行 循环 体 。 

6) 跳 回 循 环 开始 处 (第 2 步 )。 

根据 循环 类 型 ， 需 要 在 循环 体 之 前 或 之 后 检测 循环 条 件 ， 以 判断 是 否 要 继续 执行 循环 ， 但 
如 果 循 环 体 本 身 很 简单 ， 检 测 循环 条 件 的 开销 就 相对 变 得 很 大 。 来 看 看 以 下 一 段 来 自 DSP 的 代 
码 ， 它 实现 了 一 个 数字 滤波 器 : 


for (i=20;1i>0;1i- 
Y=Y+xX[i] *coeff 5 


循环 体 的 计算 虽然 看 上 去 比较 复杂 ， 但 是 在 现在 的 DSP 处 理 器 中 只 需要 一 条 简单 指令 就 可 
以 实现 。 不 过 ， 如 果 采 用 刚才 提 到 的 6 步 循环 操作 ， 那 么 这 段 代 码 将 由 1 条 设置 指令 以 及 随后 
的 20 次 第 2 ~6 步 重 复 执行 组 成 ， 加 起 来 总 共有 101 条 指令 。 

由 于 很 多 DSP 代码 的 循环 都 是 类 似 于 这 种 循环 体 很 小 的 循环 ，DSP 设计 人 员 已 经 意识 到 使 
用 大 量 额外 的 指令 来 支持 这 种 循环 效率 非常 低 ， 因 此 开发 了 零 开 销 循环 (Zero- Overhead Loop， 
POL 

以 下 是 一 个 德州 仪器 (TI) TMS320C50 处 理 器 的 汇编 代码 例子 


set BRCR to #20 
RPTB loop -- 1 
.… < 循环 体 > 
loop “”.… < 跳出 循环 体 > 
在 这 个 例子 中 ,使 用 一 条 指令 设置 BRCR 循环 计数 器 ， 然 后 使 用 另 一 条 指令 进入 循环 。 
DSP 处 理 器 会 检查 PC 指针 ， 当 它 到 达 (loop -1) 时 ， 自动 将 PC 指针 复位 回 循环 起 始 位 置 。 
在 这 个 例子 中 总 共 进行 20 次 这 样 的 操作 ， 总 共 执行 了 22 条 指令 ， 而 不 是 像 不 支持 ZOL 时 需要 
执行 101 条 指令 
Analog Devices 在 其 ADSP2181 处 理 器 上 也 有 类 似 方 法 : 


set CNTR to #20 
DO loop UNTIL LE 
.… < 循环 体 > 
loop .… < 跳出 循环 体 > 
可 以 看 到 这 两 种 方法 的 基本 原理 
是 一 样 的， 但 后 一 种 方法 可 以 支持 不 
同 的 循环 终止 条 件 (LE 指 小 于 或 等 
于 ， 除 此 以 外 还 有 其 他 15 种 条 件 )。 
5. 6. 2 节 将 会 在 此 基础 上 对 ADSP2181 
的 寻 址 能 力 进 行 探 讨 。 
支持 ZOL 的 硬件 相对 比较 简单 ， 
图 5-10 是 其 模块 图 。 
图 中 硬件 的 功能 需求 如 其 名 字 一 
样 ， 有 用 来 存放 循环 起 始 地 址 的 ， 有 





图 5-10 在 一 个 处 理 器 上 实现 零 开销 循环 所 需 的 硬件 及 
用 来 存放 循环 结束 地 址 的 ， 有 一 条 PC 包括 程序 计数 器 和 循环 设置 寄存 器 在 内 的 各 种 
指针 达到 循环 结束 的 路 径 (地 址 比较 寄存 器 间 的 通信 示意 图 
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器 ) ， 以 及 一 条 通过 重 置 PC 指针 为 循环 起 始 地 址 分 支 回 到 循环 起 始 处 的 路 径 。 除 此 之 外 ， 还 
需要 有 循环 计数 器 保持 和 自 减 的 方法 以 及 判断 循环 停止 条 件 的 机 制 ( 例 如 ,循环 计数 器 为 0)。 

一 种 可 能 发 生 的 比较 复杂 的 情况 是 ， 循 环 指令 不 是 一 个 简单 指令 ， 而 是 一 个 调用 其 他 函数 
的 指令 ， 而 其 所 调用 的 函数 又 包含 了 循环 。 由 此 ， 这 就 需要 底 套 循环 。 在 ADSP 中 ，ZOL 寄存 
器 是 包含 在 堆栈 里 的 ， 因 此 只 要 循环 结束 地 址 不 同 就 可 以 以 最 小 开销 自动 符 套 循环 。 相 反 ， 
TMS 缺少 这 样 的 硬件 支持 ， 因 此 循环 嵌 套 就 需要 手动 保存 / 重 置 循环 寄存 器 。 

另 一 种 复杂 的 情况 是 ， 虽 然 以 上 两 种 ZOL 例子 都 是 用 汇编 语言 写 的 ， 但 现在 大 部 分 代码 
都 是 用 C 语言 写 的 ， 因 此 C 编译 器 需要 能 够 意识 到 可 以 使 用 ZOL 硬件 。 简 单 的 C 结构 ， 如 之 
前 的 while 和 for 循环， 以 及 如 下 的 循环 都 可 以 很 容易 地 用 ZOL 实现 : 

k=20; 

do{ 

< 循环 体 > 

} while (k-- >0) 

注意 ， 以 上 例子 的 循环 计数 器 都 是 向 下 计数 的 。 在 TMS 中 ,循环 计数 器 是 不 能 向 上 计数 
的 ， 所 以 如 下 代码 : 


for (i=0;i<20;i++) 


< 循环 体 > 


在 汇编 代码 中 需要 转换 成 向 下 计数 (如 计数 器 从 20 递减 到 0) ， 通 常 假 设 所 用 到 的 编译 器 都 足 
够 智能 ， 可 以 完成 这 种 转换 。 

同时 ， 软 件 编程 人 员 负 有 让 C 代码 结构 能 够 使 用 ZOL 硬件 的 责任 。 对 于 这 样 的 硬件 ， 最 
好 避免 代码 中 的 循环 计数 器 不 是 以 1 为 计数 递增 或 递减 ， 也 要 避免 在 循环 体 的 算法 里 将 循环 索 
引用 于 计算 。 

给 定 一 些 支持 零 开 销 的 循环 ， 那 条 老 的 嵌入 式 代 码 原则 一 一 将 所 有 能 够 合并 的 独立 循环 都 
合并 一 一 并 非 总 是 正确 的 。 事 实 上 ， 如 果 在 循环 时 强迫 将 变量 存放 到 外 存 上 (可 能 因为 缺少 临 
时 寄存 器 ) ， 那 么 这 也 许 是 有 害 的 。 

在 ADSP2181 中 支持 硬件 无 限 循环 ， 但 可 以 将 循环 体 中 的 某 部 分 作为 终止 循环 条 件 。 这 对 
于 C 程序 是 十 分 有 利 的 ， 因 为 C 语言 包含 所 有 可 能 的 循环 结构 。 

此 类 循环 硬件 加 速 器 称 为 PC 陷阱 (PC trap)。 目 前 还 有 更 多 复杂 的 硬件 用 来 完成 类 似 任 
务 , 将 在 下 一 节 讨 论 。 


5. 6.2 地址 处 理 硬件 


ARM 处 理 器 只 有 一 个 通用 寄存 器 组 ， 而 许多 处 理 器 却 将 数据 和 地 址 分 别 存放 在 不 同 的 寄存 
器 上 。 事 实 上 ， 在 这 些 处 理 器 中 之 所 以 这 么 做 是 因为 它们 的 数据 总 线 和 地 址 总 线 宽 度 不 一 样 。 

Motorola 68000 系列 处 理 器 的 寄存 器 都 是 32 位 的 ， 却 把 寄存 器 分 为 8 个 数据 寄存 器 D0 ~ D7 
和 7 个 地 址 寄存 器 A0 ~ A6。 虽 然 任 何 值 都 可 以 保存 在 这 些 寄存 器 中 ， 但 是 只 有 将 地 址 存放 在 
地 址 寄存 器 中 时 才 会 被 当成 地 址 使 用 。 类 似 地 ， 正 在 处 理 的 指令 不 能 将 结果 直接 存放 到 地 址 寄 
存 器 中 。 程 序 员 也 可 以 利用 地 址 寄存 器 所 附带 的 硬件 在 访问 前 或 访问 后 增加 或 减少 地 址 值 ， 以 
及 将 地 址 值 用 于 索引 。 然 而 ， 如 果 需 要 更 复杂 的 地 址 运算 ， 就 需要 将 地 址 从 地 址 寄存 器 转移 至 
数据 寄存 器 中 进行 算术 运算 ， 然 后 再 将 结果 放 回 地 址 寄存 器 中 。 

ADSP21xx 系列 DSP 处 理 器 通过 数据 地 址 生成 器 (Data Address Generator，DAG) 扩展 了 这 
种 方法 。 在 ADSP2181 中 包含 两 组 这 种 寄存 器 ， 每 组 分 别 包含 4 个 工 寄 存 器 、4 个 工 寄 存 器 和 4 
个 M 寄存 器 : 
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每 一 个 索引 (1) 寄存 器 存放 用 于 访问 存储 器 的 真实 地 址 ， 工 寄存 器 存放 了 与 这 些 地 址 一 
致 的 存储 区 域 长 度 ，M 寄存 器 存放 更 改 的 值 。 
在 汇编 代码 中 ， 读 存储 器 通过 下 述 语 法 实现 : 


RXO = DM(I3, M1); 


这 意味 着 从 数据 存储 地 址 为 B 寄存 器 所 指 的 地 方 读 取 一 个 数据 ， 读 出 的 数 存放 到 AX0 寄 
存 器 中 ， 然 后 通过 加 上 M1 寄存 器 的 内 容 完 成 对 B 寄存 器 的 修改 。 如 果 了 的 新 值 超 过 了 长 度 
寄存 器 L3 + 起 始 B， 那么 将 也 中 的 值 对 起 始 B 值 取 模 后 保存 (起 始 B3 值 是 指 缓冲 区 的 首 地 
址 ) 。 如 果 13 寄存 器 的 值 为 0， 则 意味 着 3 的 内 容 没 有 发 生 改 变 。 这 种 安排 将 会 通过 一 些 例 子 
给 出 更 详细 的 说 明 ( 见 框 5.8) ， 但 需要 注意 到 ， 指 令 中 的 任何 地 方 都 没有 提 及 L3 。 这 是 因为 ， 
I 寄 存 器 和 工 寄存 器 操作 都 是 同时 进行 的 ， 而 M 寄存 器 则 是 独立 的 : 在 每 个 DAG 中 ,任何 M 
寄存 器 都 可 以 用 于 修改 I 寄存 器 ,但 这 个 DAG 中 的 M 寄存 器 不 能 对 其 他 DAG 中 的 工 寄存 器 进 
行 修改 。 框 5.8 给 出 了 ADSP21xx ZOL 硬件 操作 的 3 个 例子 。 | 
ZOL 示例 

例 1: 考虑 一 个 访 存 部 分 使 用 ADSP 汇编 器 汇编 、 其 余部 分 使 用 ARM 汇编 器 汇编 的 混合 例子 。 对 本 
例 及 其 他 例子 所 指 的 地 址 都 会 有 明确 的 说 明 。 通 常情 况 下 ， 由 于 有 一 些 特定 的 约束 (在 此 不 予 讨论 ， 但 
在 ADSP21xx 的 手册 中 有 说 明 ) ， 这 些 地 址 都 是 通过 链接 器 (linker) 来 分 配 的 。 
















MOV I0, #0x1000 ; 设置 IT0=0x1000 
MOV LO, #0x2 ; 设置 L0=2 
MOV MO, #0 ; 设置 M0=0 
MOV Ml, #1 ; 设置 M1=1 
loop: AX0 = DM(I0，M0)  ; AX0 取 数 
ADD AXO, AXO, #8 ; AX0=AX0+8 
DM(I0，M1) = AX0 ; AX0 存 数 
B loop 
接 下 来 ,我们 将 对 循环 执行 过 程 中 10 的 值 的 变化 构建 一 个 表 : 
指令 
MOV ML ， 相 AX0 = DM (I0, MO) 0x1001 








0x1000 || 7 | appaxo，axo， 相 0x1001 
0x1000 DM (I0, M1) =AXO 0x1000 
0x1001 


AX0 = DM (I0, MO) 
ADD AX0, AXO0, #8 
DM(I0, Ml) =AXO 

















a IND | 


B loop 





注意 到 在 第 2 行 中 了 0 被 MO 更改 了 , 但 是 由 于 MO 为 0， 所 以 I0 的 值 不 会 改变 。 在 第 4 行 ，I0 被 Ml 
更 改 ,， 由 于 M1l=1， 所 以 I0 加 1。 同 理 , 第 6 行 以 及 第 8 行 的 更 改 也 类 似 。 虽 然 10 的 值 应 为 0x1002, 但 
由 于 10=2， 即 缓冲 区 的 长 度 为 2， 所 以 地 址 又 跳 回 了 0x1000。 

例 2: Ll 设置 为 0, 1 为 0x1000，MO0 为 0x10。 

通过 AX0 =DM (I0,M0) 和 连续 地 从 10 读 值 将 会 看 到 地 址 寄存 器 10 中 出 现 以 下 值 : 0x1000、0x1010、 
0x1020、0x1030、0x1040、0x1050 等 。 这 是 因为 Ll 为 0 所 以 地 址 不 会 出 现 循环 。 

例 3: 在 这 个 例子 中 ，L4 被 设置 为 50, I0 为 0，M4 为 2，M5 为 10。 这 构建 了 一 个 拥有 50 个 存储 空 
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间 的 循环 缓冲 区 ， 起 始 地 址 为 0。 执 行 以 下 循环 : 
loop: AX0 = DM(I4, M5) 
RY0 = DM(I4, M4) 
B loop 
随 着 循环 的 执行 ，14 的 值 将 会 如 此 变化 : 0、10、12、22、24、34、36、46、48、8、10、20、22 等 。 
注意 使 用 黑体 标注 的 数字 。 先 看 48，I4 索引 应 加 上 10 变 为 58, 但 由 于 14 为 50， 所 以 这 超过 了 缓冲 区 的 
长 度 ， 因 而 到 被 循环 回 起 始 处 ， 由 此 48 之 后 为 8。 
组 庸 置疑 ，ADSP 拥有 强大 的 地 址 处 理 能 力 ， 但 考虑 3.3.4 节 所 提 到 的 基于 ARM 处 
理 需 的 寻 址 模式 ， 事 实 上 ，ADSP 除了 其 先进 的 寻 址 硬件 外 ， 并 没 任何 超 越 那 些 寻 址 模式 
的 性 能 。 
由 此 ，DAG 和 与 其 相关 的 硬件 对 于 维护 环形 缓冲 区 和 执行 同步 地 址 变化 〈 例 如 预定 义 向 
前 或 向 后 ) 是 十 分 有 用 的 。 然 而 ， 在 所 获得 的 这 些 效率 之 外 ， 这 种 硬件 并 没有 从 本 质 上 提高 处 
理 器 的 性 能 。 这 种 效率 的 获得 带 来 的 开销 是 ， 需 要 为 硬件 一 一 如 图 5-11 所 示 的 ADSP2181 中 的 
一 个 DAG 单元 提供 芯片 面积 。 





DMD 总 线 





一 
根据 指令 字 选 择 寄 存 器 


图 5-11 数字 信号 处 理 器 ADSP2181 内 的 第 二 条 数据 地 址 生成 器 (DAG) 硬件 模块 图 。 它 显示 了 内 部 长 
度 寄存 器 L0 ~ L3 、 索 引 寄 存 器 10 ~ 了 9 及 修改 寄存 器 M0 ~ M3 是 如 何 与 地 址 专用 加 法 器 和 内 部 
DMD (数据 -存储 -数据 ) 总 线 相连 的 


从 图 中 可 以 看 到 ， 由 于 在 每 个 指令 周期 最 多 访问 DAG 中 的 一 个 寄存 器 ， 因 此 每 一 个 L、I 
及 M 寄存 器 都 通过 共享 总 线 访问 。DMD (Data- Memory-Data， 数 据 - 存储 -数据 ) 总 线 用 于 传 
输 数 据 操作 数 并 和 数据 存储 器 链接 (4. 1.3 节 中 更 详细 地 说 明了 ADSP 这 种 非常 规 的 内 部 总 线 
结构 ) 。 另 外 ，DAG1 (没有 画 出 来 ) 可 以 按 位 反 序 输出 地 址 ， 这 在 快速 傅 里 叶 变 换 和 其 他 数 
字 信 和 号 处 理 中 能 带 来 显著 的 性 能 提高 。 

由 于 在 ADSP21xx 中 片上 数据 和 代码 是 分 开 存 储 的 并 分 别 由 独立 的 总 线 支持 ， 同 时 有 两 个 
DAG， 因 此 ADSP21xx 可 以 通过 后 改 (post modification) 和 循环 地 址 (wraparound) 直接 访问 内 
存 中 的 两 个 DAG 地 址 操作 数 。 一 经 访问 ， 这 两 个 操作 数 可 以 在 一 个 指令 周期 内 被 处 理 并 存储 。 
相反 ， 对 于 ARM 处 理 器 ， 在 功能 上 也 能 完成 这 样 的 操作 ， 但 是 并 不 能 在 一 个 指令 周期 内 完成 。 
我 们 也 曾 提 到 过 ，ARM 不 需要 在 一 条 指令 内 访问 两 个 不 同 地 址 的 操作 数 (因为 取 数 - 存 数 
(load-store) 结构 最 多 只 有 一 个 地 址 操作 数 ) 在 框 5.9 中 有 详细 讨论 。 

ARM 中 的 地 址 编 址 

作为 一 款 RISC 设计 ，ARM 只 为 地 址 提供 了 最 少 的 专用 处 理 硬 件 ， 但 只 要 简单 尝试 调整 指令 流 ， 
ARM 处 理 这 些 指令 的 速度 也 会 提升 。 

正如 3.2.3 节 所 讨论 的 ，ARM 通过 一 条 数据 load 指令 和 一 条 数据 store 指令 实现 load-store 结构 ( 事 
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实 上 在 多 处 理 器 系统 中 ， 还 有 一 条 swap 指令 ) 。 读 取 和 存储 的 地 址 可 以 为 向 前 偏 移 或 向 后 偏 移 (增加 或 
减少 ) ， 也 可 以 为 直接 寻 址 或 间接 寻 址 。 

ARM 利用 ALU 和 移 位 器 进行 地 址 计算 ， 因 为 这 些 硬 件 在 流水 线 执 行 读 取 和 存储 指令 的 时 隙 是 可 用 
的 ( 详 见 5.2.8 节 )。 与 ADSP 的 DAG 相 比 ，ARM 的 ALU 和 移 位 器 比 DAG 的 ALU 和 移 位 器 适用 性 更 高 。 

以 下 是 这 种 适用 性 的 例子 : 

LDR RO, [R1, R2, LSL#2] 

这 条 指令 要 将 内 存 地 址 (Rl1+(R2*4)) 的 内 容 取 入 寄存 器 RO。LSL 是 逻辑 左 移 指令 ， 这 种 地 址 计 
算 对 于 ADSP21xx 的 DAG 是 无 法 实现 的 。 

最 后 ， 需 要 注意 在 ADSP21xx 中 没有 选择 (alternate) 或 影子 (shadow) DAG 寄存 器 (将 
在 5.6.3 节 中 介绍 ) 。 这 意味 着 DAG 的 使 用 是 依赖 于 程序 上 下 文 以 及 中 断 支 持 的 : 需要 通过 直 
接 写 汇 编 代 码 才 能 完全 利用 这 种 地 址 处 理 加 速 右 。 


5. 6.3 影子 寄存 器 


CPU 寄存 器 是 处 理 器 上 下 文 的 一 部 分 ， 程序 运行 时 可 见 。 其 他 上 下 文 则 包括 状态 标志 和 可 
见 存储 (viewable memory ) 。 

当 一 个 正在 运行 的 线程 被 一 个 外 部 中 断 信号 中 断 时 (将 在 6.5.1 节 中 讨论 )， 中 断 服务 例 
程 (ISR) 就 会 运行 以 响应 这 个 中 断 信和 号。 一 旦 ISR 运行 完毕 ， 控 制 又 转 回 到 原先 的 程序 。“ 控 
制 ” 一 词 在 这 里 是 指 程序 计数 器 的 指向 。 程 序 正常 情况 下 应 该 是 按照 汇编 代码 一 条 接 一 条 顺序 
往 下 运行 的 ， 而 中 断 会 将 程序 切换 到 ISR 上 运行 ， 在 ISR 执行 完毕 后 ， 再 转 回 到 原先 的 程序 上 
继续 执行 ， 就 好 像 什 么 事情 都 没 发 生 过 一 样 。 

来 考虑 这 样 一 个 过 程 ， 当 中 断 启 用 时 ， 就 有 可 能 在 任意 两 条 指令 之 间 和 触发 一 个 SR。 因 此 
对 于 ISR 来 说 ， 它 必须 能 够 在 返回 时 将 所 有 的 东西 都 恢复 ， 使 得 程序 的 上 下 文 跟 它 被 调用 前 一 
模 一 样 。 

在 几 年 前 ， 程 序 员 必须 在 ISR 开始 的 时 候 对 当前 程序 进行 所 谓 的 上 下 文保 存 ， 并 在 ISR 退 
出 前 恢复 上 下 文 。 保 存 上 下 文 的 过 程 是 将 每 个 寄存 器 按 顺 序 进行 压 栈 ， 而 恢复 就 是 将 其 按 相反 
顺序 进行 出 栈 。 这 个 过 程 会 花费 20 ~ 30 条 指令 的 开销 ， 并 且 必 须 在 ISR 执行 正式 的 中 断 操作 
前 完成 。 

为 了 避免 这 种 开销 ， 影 子 寄 存 器 被 开发 出 来 。 影 子 寄存 器 是 第 二 个 寄存 器 组 ， 在 各 方面 与 
主 寄 存 器 组 相 一 致 。 然 而 ， 它 可 以 在 ISR 需要 的 时 候 被 利用 (包括 修改 ) ， 而 不 需要 修改 主 程 
序 可 见 的 原始 寄存 器 。 以 TMS320C50 为 例 ， 一 旦 有 中 断 发 生 ， 处 理 器 会 跳 到 对 应 的 ISR 并 自 
动 转换 至 影子 寄存 器 。 当 ISR 执行 完毕 时 ， 一 条 专用 的 跳 回 指令 使 程序 跳 回 中 断 前 的 PC， 并 
转换 回 原始 寄存 器 。 

有 了 这 种 影子 寄存 器 ， 就 不 需要 手动 地 在 ISR 开始 时 保存 上 下 文 、 结 束 时 恢复 上 下 文 。 在 
代码 的 任何 地 方 都 可 以 进行 中 断 而 不 需要 任何 额外 开销 。 然 而 ， 如 果 只 有 一 个 影子 寄存 器 组 ， 
中 断 就 不 能 租 套 ， 这 意味 着 在 一 个 中 断 发生 时 ， 不 能 响应 另外 一 个 中 断 。 


5.7 分 支 预测 


在 5.2.6 节 ,， 我 们 研究 了 由 于 分 支 导致 的 流水 线性 能 下 降 的 现象 。 我 们 看 到 分 支 本 身 引 
发 了 很 多 问题 ， 而 条 件 分 支 冒险 和 相对 地 址 分 支 会 加 剧 这 些 问题 。 在 前 面 的 框 5. 4 中 我 们 简 
单 介绍 了 分 支 预测 并 认为 预测 执行 ( 见 框 5.5) 是 降低 分 支 开 销 (branch penalty) 的 一 种 
办 法 。 

在 本 节 中 ， 我 们 首先 对 由 于 分 支 引发 的 性 能 下 降 问 题 做 一 个 总 结 ， 然 后 讨论 用 于 减少 此 性 
能 下 降 并 与 预测 执行 能 力 相 关联 的 分 支 预测 方法 。 回 想 我 们 之 前 介绍 的 方法 中 所 特有 的 问题 
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(以 及 涉及 的 硬件 成 本 ) ， 这 些 问 题 使 得 分 支 引 发 的 性 能 降低 成 为 计算 机 体系 结构 设计 师 心 中 
的 痛 。 


在 理想 情况 下 ， 我 们 可 以 训练 程序 员 避 免 使 用 分 支 指令 ， 但 当 这 些 指令 出 现时 ， 本 节 所 介 
绍 的 专用 硬件 仍 将 发 挥 作 用 ， 并 且 也 是 CPU 性 能 研究 的 热点 。 
5.7.1 分 支 预测 的 必要 性 

首先 ， 我 们 概括 一 下 分 支 带 来 的 问题 。 考 虑 以 下 代码 在 一 个 四 级 流水 线 〈 取 指 、 译 码 、 执 
行 、 写 回 ) 上 执行 : 


il ADD R1, R2, R3 


这 B loopl 
i3 ADD RO, R2, R3 
i4 AND R4, R2, B3 


loopl: STR R1, locationA 


不 建立 预约 表 ， 我 们 执行 开始 的 几 个 周期 : 

。 il 被 取 指 。 

。 这 被 取 指 ， 同 时 计 被 译 码 。 

。 i3 被 取 指 ， 同 时 这 被 译 码 并 且 il 被 执行 。 在 这 个 周期 的 末尾 ，CPU“ 知 道 ” 这 是 一 条 

分支 指令 。 

此 时 ，i3 已 经 被 取 入 流水 线 。 然 而， 由 于 这 是 一 条 分 支 指令 ， 因 此 正确 的 操作 应 该 是 将 
loopl 所 标记 的 指令 作为 下 一 个 周期 执行 的 指令 。 由 此 i3 应 该 被 清除 出 流水 线 并 取 入 正确 的 指 
令 。 清 除 的 工作 将 会 在 流水 线 中 形成 一 个 “气泡 ”， 从 而 降低 了 流水 线 的 效率 。 

在 5.2.8 节 中 我 们 也 讨论 过 相对 地 址 分 支 的 问题 : 分 支 的 目标 地 址 〈 分 支 指令 后 应 该 执行 
的 指令 的 地 址 ) 通常 是 一 个 以 当前 程序 计数 器 为 基准 的 偏 移 量 ， 保 存在 分 支 指令 中 。 所 以 CPU 
需要 使 用 ALU 将 偏 移 量 与 PC 相 加 计算 出 下 一 条 指令 的 地 址 。 

在 上 面 给 出 的 例子 中 ， 如 果 分 支 的 地 址 (在 这 个 例子 中 是 loopl 所 指 指令 的 位 置 ) 需要 通 
过 计算 得 出 ， 那 么 在 分 支 指令 被 译 码 后 还 需要 另 一 个 周期 。 通 常情 况 下 ， 使 用 这 种 技术 的 处 理 
器 会 立即 将 流水 线 清空 并 执行 分 支 。 操 作 序 列 如 下 所 示 : 

。 il 被 取 指 。 

i 被 取 指 ， 同 时 il 被 译 码 。 

i3 被 取 指 ， 记 被 译 码 ， 并 且 i 被 执行 。 

i4 被 取 指 ，i3 被 译 码 ， 这 被 执行 (这 意味 着 分 支 的 目标 地 址 将 通过 ALU 计算 出 来 ) ， 
并 且 il 的 结果 被 写 回 。 

。 i2 的 结果 即 分 支 的 目标 地 址 被 写 回 ， 但 写 回 的 地 址 是 程序 计数 器 而 不 是 其 他 寄存 器 ， 

同时 流水 线 被 复位 (丢弃 3 和 这 ) 。 

。 分 支 地 址 处 的 指令 被 取 指 。” 

至 此 ， 我 们 还 没有 提 到 条 件 分 支 冒险 的 情况 ， 这 种 情况 下 流水 线 需 要 等 待 分 支 指令 之 前 的 
条 件 设置 指令 计算 完成 来 决定 是 否 执 行 分 支 。 

然而 ， 我 们 已 经 对 用 于 缓解 分 支 问 题 的 预测 进行 了 讨论 。 总 体 而 言 ， 预 测 执行 是 在 等 待 分 
支 条 件 得 出 结果 前 或 分 支 地 址 计算 完成 前 执行 某 一 个 分 支 路 径 。 在 预测 执行 的 路 径 执行 完 前 ， 
处 理 器 确定 该 预测 是 正确 的 〈 此 时 所 预测 执行 的 指令 可 以 完成 ) 或 不 正确 的 (此 时 所 预测 执 
行 的 指令 及 其 结果 将 被 抛弃 ) 。 


加 ”需要 注意 的 是 ， 许 多 处 理 器 将 会 在 更 早 一 个 周期 对 该 指令 取 指 ， 这 是 通过 将 从 ALU 计算 所 得 到 的 分 支 地 址 
直接 输出 到 地 址 总 线 上 (数据 转发 的 一 种 形式 ) 实现 的 ， 并 同时 将 结果 写 人 程序 计数 器 。 


1208 


[210] 





在 某 些 处 理 器 上 ， 预 测 路 径 是 不 确定 的 ， 例 如 总 是 预测 会 执行 分 支 ， 或 总 是 预测 不 执行 分 
支 。 当 然 ， 在 不 考虑 其 他 因素 的 情况 下 ， 这 种 预测 的 正确 性 总 是 很 难 超过 50% 。 对 于 这 种 
CPU， 编 译 器 也 应 尽 可 能 让 生成 的 代码 走 预测 的 路 径 。 

实际 上 ， 预 测 是 在 赌博 : 猜测 某 一 条 路 径 被 执行 。 正 确 的 猜测 开销 小 ， 因 为 在 此 情况 下 ， 
处 理 器 通常 不 会 有 流水 线 停顿 。 而 错误 的 猜测 将 会 引发 流水 线 停顿 ， 因 为 错误 的 执行 需要 从 流 
水 线 上 清除 。 

一 种 更 精细 的 预测 是 分 支 预 测 ， 它 通过 如 下 的 信息 进行 更 智能 的 猜测 : 

。 过 去 的 行为 

。 代码 域 / 地 址 

。 编译 器 在 代码 中 给 出 的 暗示 (例如 执行 /不 执行 指示 位 一 一 TDTB “) 

动态 分 支 预测 通常 依赖 一 些 过 去 的 行为 来 预测 未 来 的 分 支 ， 这 在 框 5.4 中 有 总 结 。 当 CPU 
看 到 一 个 分 支 时 ， 它 通过 预测 器 快速 地 决定 执行 哪 条 路 径 。 然 后 ， 当 实际 的 分 支 结 果 出 来 后 ， 
它 会 更 新 预测 器 ， 这 是 为 了 让 未 来 的 预测 更 准确 一 些 。 

我 们 将 对 7 种 不 同 的 预测 方法 分 别 进 行 探讨 ， 研 究 它们 的 操作 和 性 能 : 

。 单 T 位 预测 器 

。 双 位 预测 器 

e 计数 器 和 移 位 器 预测 器 

。 局 部 分 支 预测 器 

。 全 局 分 支 预测 器 

。 G 选择 预测 器 

。 G 共享 预测 器 

在 这 些小 节 之 后 ， 将 会 讨论 混合 使 用 以 上 技术 (5.7.9 节 ) ， 然 后 讨论 使 用 分 支 目标 缓冲 
和 


5.7.2 单 T 位 预测 器 


在 一 个 比较 简单 的 单 了 位 预测 器 机 制 中 ， 当 了 标志 被 设置 为 1 时 表示 需要 执行 分 支 ， 而 当 
被 设 为 0 时 表示 不 执行 分 支 。 在 执行 完 每 条 分 支 指令 后 〈 即 所 有 的 条 件 及 其 他 相关 因素 都 被 解 
决 后 ) 会 更 新 了 标志。 全 局 的 T 位 预测 器 硬件 开销 很 小 ， 因 为 整个 CPU 只 有 一 个 T 位 执行 
预测 。 

无 论 何 时 遇 到 分 支 指令 ， 流 水 线 都 会 根据 T 位 的 状态 进行 预测 。 换 句 话 说， 如 果 上 一 个 分 
支 指令 执行 了 分 支 (T=1) ， 则 下 一 个 分 支 指令 也 被 预测 为 需要 执行 分 支 。 相 反 ， 如 果 上 一 个 
分 支 指令 没有 执行 (T=0) ， 则 下 一 个 分 支 指令 被 预测 为 不 执行 分 支 。 这 种 预测 器 机 制 并 不 是 
智能 的 ， 却 有 令 人 意 想 不 到 的 好 效果 ， 特 别 是 在 编译 器 支持 的 情况 下 。 从 根本 上 说 ， 当 需要 执 
行 的 代码 存在 大 量 的 简单 循环 时 ， 这 是 一 种 好 方法 。 

例如 ， 以 下 是 一 段 ARM 风格 的 汇编 代码 ， 初 始 时 ，R1 =1，R2 =4: 

il loop: SUBS R2, R2, R1 7;R2=R2-R1 

这 BGT loop ; 当 结 果 大 于 0 时 ， 执 行 分 支 

现在 在 一 个 具有 全 局 T 位 预测 器 的 CPU 上 执行 这 段 代码 ， 来 验证 这 种 预测 器 在 应 对 这 种 
简单 循环 时 表现 得 有 多 优秀 。 





日 ”执行 /不 执行 指示 位 (take/don't take bit，TDTB) 通过 智能 编译 器 插入 代码 中 ， 用 于 告诉 预测 单元 在 当前 位 
置 上 最 有 可 能 的 分 支 结 果 。 注 意 到 编译 器 比分 支 单 元 更 清楚 分 支 的 情况 一 一 编译 器 可 以 “看 到 ”未 来 ， 知 
道 循环 、 函 数 、 程 序 的 整体 内 容 ， 也 知道 在 每 条 路 径 上 下 一 条 指令 是 什么 。 
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从 这 个 跟踪 表 (trace table) “最 左 列 开 始 ， 当 i 执行 完 (减法 ) 后 ，R2 的 内 容 由 4 变 为 
3。 在 下 一 个 周期 ， 当 也 (分 支 指令 ) 执行 完 后 ， 因 为 SUBS 指令 的 结果 大 于 0， 所 以 执行 分 
支 。 在 第 一 次 循环 中 ， 由 于 预测 器 初始 条 件 不 定 ， 所 以 不 能 进行 预测 。 

正如 跟踪 过 程 所 示 ， 循环 在 重复 执行 两 次 后 退出 (在 最 后 一 次 循环 后 没有 跳 回 循环 的 起 始 
处 ) 。 在 第 二 次 循环 中 ， 预 测 器 学 习 到 上 一 个 分 支 被 执行 ， 所 以 正确 地 预测 出 下 一 个 分 支 需要 
执行 。 同 样 ， 在 第 三 次 循环 中 也 预测 正确 ， 而 在 最 后 一 次 预测 中 错 了 。 

总 体 而 言 ， 该 循环 中 第 一 次 磁 到 分 支 时 有 可 能 是 不 正确 的 ， 这 取决 于 之 前 执行 代码 的 了 位 
预测 需 状 态 。 最 后 一 次 分 支 也 没有 预测 正确 ， 但 在 循环 体 中 ， 不管 重复 多 少 次 循环 ， 预 测 都 正 
确 。 对 于 任意 大 小 的 简单 循环 ， 这 种 结论 都 是 正确 的 : 不 管 i 和 设 之 间 存 在 多 少 代码 ， 只 要 
不 包含 分 支 指令 ， 预 测 的 结果 都 会 如 此 。 

遗憾 的 是 ,循环 极 少 会 如 此 简单 ， 通 常情 况 下 在 循环 体 的 代码 中 都 会 包含 其 他 分 支 指 令 。 
让 我 们 通过 男 一 段 简 单 例子 来 说 明 这 个 问题 : 

il loop: SUBS R2, R2, R1 ;R2=R2-R1 


i2 BLT error ;如 果 结 果 小 于 0， 则 执行 分 支 
i3 BGT loop ;如 果 结 果 大 于 0， 则 执行 分 支 


我 们 再 次 通过 一 个 带 有 一 个 全 局 了 位 预测 器 的 CPU 执行 这 段 代 码 ， 以 检测 这 种 预测 器 遇 
到 这 种 代码 时 的 预测 情况 。 这 一 回 ， 我们 假设 初始 条 件 为 R2 =3， 这 是 为 了 减少 跟踪 表 中 列 的 
数量 : 
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在 这 种 情况 下 ， 预 测 器 的 性 能 很 差 : 预测 器 的 每 一 个 预测 都 失败 了 。 遗 憾 的 是 ， 这 种 结果 对 
于 简单 了 位 预测 器 来 说 太平 常 了 。 正 如 我 们 在 下 一 节 将 要 看 到 的 那样 ， 对 这 种 预测 器 加 以 改进 : 
对 每 一 次 预测 增加 一 些 复杂 度 ， 为 每 一 个 分 支 采用 单独 的 预测 器 。 首 先 ， 介 绍 一 下 双 位 预测 器 。 


5.7.3 双 位 预测 器 


虽然 双 位 预测 器 从 概念 上 讲 与 T 位 预测 器 有 点 类 似 ， 但 却 是 用 前 两 次 分 支 的 结果 来 对 下 一 
个 分 支 进行 预测 ， 而 不 是 像 了 位 预测 器 那样 只 用 前 一 次 分 支 的 结果 。 这 种 方法 使 用 了 如 图 5-12 
所 示 的 状态 机 。 该 方法 也 称 为 双 模 〈bimodal) 预测 吾 。 





























”这 种 跟踪 表 并 不 能 完全 取代 预约 表 ， 因 为 它 既 不 能 给 出 在 某 一 个 确定 时 间 流 水 线 发 生 的 情况 ， 也 不 能 指出 
每 条 指令 需要 多 少 个 周期 去 执行 。 它 只 能 给 出 每 条 指令 在 顺序 执行 后 系统 的 状态 。 
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图 5-12” 双 位 预测 器 状态 转移 图 ， 其 中 有 DT (确定 执行 )、PT (可 能 执行 )、PN (可 能 不 执行 ) 以 及 
DN (确定 不 执行 ) 四 种 状态 。 前 两 种 状态 表示 转移 可 能 会 执行 ， 后 两 种 状态 表示 转移 可 能 不 
执行 。 在 分 支 条 件 确定 后 ， 预 测 器 的 状态 根据 实际 执行 (T) 或 不 执行 (NT) 分 支 来 更 新 状态 


由 于 有 4 种 状态 (使 用 两 位 来 描述 状态 ) ， 这 种 预测 器 将 会 比 单 了 位 预测 器 精确 。 这 么 说 
太 笼 统 ， 但 在 一 个 嵌 套 循环 的 例子 中 〈 此 时 单 了 位 预测 器 的 性 能 非常 差 )， 双 位 预测 器 获得 了 
更 好 的 性 能 。 

为 了 说 明 这 种 情况 ， 我 们 使 用 与 前 一 节 相 同 的 代码 : 

这 lJ60B: SUBS R2, R2, R1 ;R2=R2-R1 

i2 BLT error ;如果 结果 小 于 0， 则 执行 分 支 

i3 BGT loop ;如 果 结 果 大 于 0， 则 执行 分 支 

这 一 次 我 们 将 使 用 一 个 带 有 全 局 双 位 预测 器 的 CPU 来 执行 这 段 代码 。 再 次 假设 初始 条 件 
为 R2=3，R1 =1， 并 且 预 测 器 初始 状态 为 “DT”: 



























































记录 i1 i2 i3 i1 i2 i3 i1 i2 i3 
RI1 | 1 1 1 1 1 1 1 1 

一 一 
R2 & 2 2 1 1 1 0 0 0 
预测 器 DT PT DT DT PT DT DT PT DN 
分 支 一 不 执行 执行 = 不 执行 执行 | ess 不 执行 不 执行 
正确 “一 否 是 | 一 否 是 一 否 否 





这 个 跟踪 表 与 5.7. 2 节 的 很 相似 ,但 需要 仔细 地 阅读 这 个 表 。 记 住 每 一 列 显示 的 是 这 一 列 
所 指示 的 指令 执行 完毕 后 处 理 器 的 状态 ， 并 且 在 表 中 没有 时 序 上 的 信息 ， 只 给 出 了 简单 的 操作 
序列 。 例 如 ， 先 找到 这 执行 的 位 置 ， 在 这 列 中 我 们 看 到 左边 的 R1 和 R2 没有 发 生变 化 ,但 由 
于 分 支 没 有 被 执行 ， 它 将 预测 器 的 状态 从 “DT” 改 变 为 “PT”( 以 黑体 字 显 示 ) 。 当 i3 执行 完 
毕 时 ， 由 于 分 支 被 执行 (以 黑体 字 显 示 ) ， 预 测 器 的 状态 又 转 回 “DT”。 在 i3 开始 执行 时 ， 预 
测 器 的 状态 还 是 “PT”， 因 此 预测 器 预测 分 支 需 要 执行 ， 而 事实 上 这 是 一 个 正确 的 预测 ， 因 此 
在 底部 以 黑体 字 显 示 的 “是 ”表示 预测 正确 。 所 以 ， 在 确定 预测 正确 性 时 ， 需 要 将 预测 的 结 
果 与 前 一 列 的 预测 进行 比较 。 

虽然 这 种 预测 器 对 于 所 有 的 分 支 不 会 都 预测 正确 ,但 它 对 循环 体内 不 在 循环 末端 的 其 中 一 
个 分 支 的 预测 都 是 正确 的 。 这 样 的 结果 介 于 单 了 位 预测 器 和 理想 预测 器 之 间 。 

接 下 来 更 严密 地 解释 这 种 预测 器 的 原理 : 单位 预测 器 存在 一 些 问题 ， 而 双 位 预测 器 在 一 
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定 程 度 上 可 以 解决 这 些 问题 。 但 如 果 双 位 预测 器 也 有 问题 ， 可 以 增加 更 多 的 位 来 解决 问题 吗 ? 
答案 是 肯定 的 ， 因 为 总 体 而 言 使 用 更 多 资源 会 获得 更 好 的 性 能 。 然 而 ， 从 需求 上 来 说 ,需要 使 
用 尽量 小 的 硬件 资源 来 尽量 提高 性 能 。 

由 此 ,我 们 需要 意识 到 ， 通 过 分 支 指令 这 的 结果 来 预测 i3 的 结果 是 非常 困难 的 。 用 过 去 
i2 的 结果 来 预测 记 ， 用 过 去 i3 的 结果 来 预测 3 ， 才 会 得 到 更 好 的 结果 。 换 句 话说， 需要 为 不 
同 的 指令 分 配 单独 的 预测 器 。 事 实 上 ， 这 种 机 制 将 会 在 5.7.5 节 介 绍 双 模 预测 器 时 出 现 。 接 下 
来 我 们 先 对 使 用 更 多 位 的 预测 器 进行 探讨 。 


5.7.4 计数 器 和 移 位 器 预测 器 


简单 的 饱和 计数 器 (saturating counter) 在 执行 分 支 时 加 1， 在 不 执行 分 支 时 减 1。 这 种 计 
数 器 可 以 保持 在 饱和 状态 而 不 会 循环 计数 ， 因 此 经 过 一 长 串 连 续 的 执行 分 支 后 ， 可 以 使 得 这 种 
计数 器 达到 最 大 值 并 一 直 保 持 这 个 最 大 值 。 

对 于 基于 这 种 计数 器 的 分 支 预测 器 ， 就 可 以 只 通过 最 高 有 效 位 〈MSB) 的 值 来 判断 。 因 为 
当 MSB 为 1 时 ， 计 数 器 的 值 为 其 最 大 值 的 一 半 或 一 半 以 上 ， 当 MSB 为 0 时 ， 计 数 器 的 值 小 于 
其 最 大 值 的 一 半 。 

虽然 计数 器 是 一 种 相当 简单 的 硬件 ， 但 是 它 需 要 花 很 长 一 段 时 间 去 “学 习 ” 在 什么 时 候 
执行 “通常 执行 分 支 ”( normally-taken) 循环 与 “通常 不 执行 分 支 ”( normally-not-taken) 循环 
间 的 转换 。 另 外 ， 它 在 般 套 循环 中 带 有 分 支 时 性 能 不 好 。 

与 计数 器 在 硬件 尺寸 上 相似 的 是 移 位 器 。 一 个 n 位 移 位 器 存放 着 过 去 个 分 支 的 结果 。 无 
论 什么 时 候 处 理 器 执行 了 一 条 分 支 指令 ， 其 结果 都 会 进入 移 位 器 ， 同 时 此 前 的 结果 都 会 向 左 或 
向 右 移动 一 位 ， 而 最 先进 入 移 位 咒 的 结果 就 会 被 丢弃 。 例 如 ， 以 1 表示 执行 分 支 ， 0 表示 不 执 
行 分 支 ， 而 移 位 器 中 存放 着 过 去 8 个 分 支 的 结果 (NT，NT，NT，T，T，NT，T，NT) ， 其 值 
为 00011010。 如 果 下 一 个 分 支 执行 ， 移 位 器 的 内 容 将 都 向 左 移动 1 位 ， 丢 弃 最 左边 的 0,， 而 1 
会 进入 移 位 器 最 右 端 ， 更 新 为 00110101。 虽 然 可 以 通过 移 位 器 的 内 容 进行 分 支 预测 ， 但 是 极 少 
单独 使 用 以 上 我 们 提 到 的 技术 进行 预测 ， 而 是 将 这 些 技术 混合 使 用 。 至 此 ， 我 们 已 经 按 顺序 介 
绍 了 4 种 分 支 预测 器 。 


5.7.5 局 部 分 支 预 测 器 


简单 观察 低级 语言 会 发 现 ， 有 些 分 支 总 是 会 执行 的 ， 而 有 些 却 总 是 不 执行 。 全 局 单位 预 
测 器 和 全 局 双 位 预测 器 对 CPU 内 所 有 分 支 的 处 理 看 起 来 都 是 一 样 的 。 更 明智 的 方法 是 局 部 处 
理 每 个 分 支 ， 而 不 是 采用 全 局 的 方法 。 这 与 4.4.4 节 所 提 到 的 局 部 性 原则 有 关 ， 例 如， 假设 库 
代码 中 的 分 支行 为 与 用 户 代 码 中 的 分 支行 为 是 不 一 样 的 ， 所 以 应 该 对 它们 采用 不 同 的 预测 方 
法 。 甚 至 在 用 户 代 码 中 , 不同 区 域 的 程序 所 包含 的 分 支 也 是 不 同 的 。 

正如 之 前 所 提 到 的 ， 可 以 为 每 一 个 单独 的 分 支 分 配 一 个 单 了 位 预测 器 〈 或 者 双 位 预测 
器 ) 。 然 而 ， 在 一 些 代码 中 ， 可 能 会 有 几 千 条 甚至 几 百 万 条 分 支 指令 ， 假 如 为 每 条 分 支 指令 都 
分 配 一 个 预测 器 ， 硬 件 开销 就 实在 太 大 了 。 

所 以 在 全 局 预测 器 和 为 每 个 分 支 分 配 一 个 预测 器 之 间 有 一 个 折 中 。 这 也 引出 了 预测 器 块 
(a bank of predictor) 的 概念 。 在 一 定 程度 上 ， 这 与 cache ( 见 4.4 节 ) 的 硬件 组 织 相 类 似 ， 同 
时 也 会 引发 类 似 的 问题 : 查找 时 间 (look-up time) 。 使 用 这 种 机 制 时 ， 每 当 遇 到 一 条 分 支 指 
令 ， 预测 器 就 会 为 这 条 分 支 指令 进行 查找 ， 然 后 确定 预测 结果 。 随 着 需要 进行 搜索 的 预测 器 越 
来 越 多 ， 查 找 的 时 间 就 会 变 长 ， 甚 至 会 超过 1 个 流水 线 周 期 。 因 此 ， 计 算 机 体系 结构 设计 师 的 
关注 重点 是 使 用 更 少 的 预测 需 获 得 更 智能 的 预测 。 
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图 5-13 是 分 支 历史 记录 饱和 计数 器 ( 见 5.7.4 节 ) 的 示意 图 。 它 没有 为 所 有 的 分 支 指令 
都 分 配 一 个 计数 器 预测 器 ， 而 是 只 有 2” 个 计数 器 预测 器 ， 正 在 预测 的 分 支 指令 分 配 在 不 同 的 
地 址 上 。 
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图 5-13 局 部 分 支 预 测 器 示意 图 。 它 带 有 一 系列 分 支 历史 记录 饱和 计数 器 ， 它 们 使 用 每 条 分 支 指令 所 在 
地 址 的 低位 地 址 进行 索引 ( 由 此 不 同 的 计数 器 映射 到 了 不 同 组 的 分 支 指令 )。 正 如 在 5.7.4 节 里 
解释 的 ， 计 数 器 的 最 高 有 效 位 用 于 进行 分 支 预 测 


这 种 预测 器 使 用 地 址 线 ” 的 低 大 位 来 选择 使 用 哪个 计数 器 为 该 分 支 指令 做 预测 〈 该 计数 器 
也 理所当然 被 该 指令 的 分 支 结果 更 新 ) ， 例 如 地 址 0 上 的 分 支 指令 使 用 0 号 计数 器 ,地 址 1 上 
的 分 支 指 令 使 用 1 号 计数 器 ， 以 此 类 推 。 如 果 只 有 8 个 计数 器 ，0 号 计数 器 就 会 由 地 址 0、8、 
16、32 、64 等 上 的 分 支 指令 共同 使 用 。 

注意 预测 器 块 中 的 饱和 计数 器 可 以 使 用 单位 预测 器 或 双 位 预测 器 来 蔡 代 。 最 重要 的 是 引 
和 了 局 部 性 原则 : 至 少 有 一 部 分 预测 都 是 基于 地 址 的 。 接 下 来 我 们 使 用 之 前 在 全 局 单 了 位 预测 
器 和 双 位 预测 器 使 用 过 的 代码 来 说 明 这 种 局 部 性 预测 ; 


il loop: SUBS R2, R2, R1 ;R2=R2-R1 
志 BLT error ;如 果 结 果 小 于 0， 则 执行 分 支 
;3 BGT loop :如果 结果 大 于 0， 则 执行 分 支 


这 一 次 我 们 使 用 带 有 如 图 5-13 所 示 的 局 部 预测 器 的 CPU 来 运行 这 段 代 码 。 我 们 仍旧 假设 初 
始 条 件 R2 =3， 而 预测 器 的 计数 器 为 4 位 并 且 在 执行 前 被 初始 化 为 0111。 指 令 计 的 位 置 为 地 址 0。 


















































这 个 跟踪 表 中 给 出 了 预测 器 3 个 计数 器 (c0、cl 和 2) 的 情况 ， 由 于 代码 从 地 址 0 开始 ， 





加 ”对 于 一 些 处 理 器 ， 如 ARM， 地 址 采用 字 节 计数 ， 但 其 指令 超过 一 个 字 节 。 在 这 种 情况 下 ， 由 于 指令 地 址 都 
是 0、4、8、16 等 ， 因 此 所 有 ARM 指令 地 址 线 的 A0 和 Al 都 永远 为 0。 所 以 这 些 地 址 线 将 被 局 部 预测 器 忽 
略 ， 而 使 用 从 A2 开始 的 地 址 线 。 
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所 以 这 3 个 计数 器 分 别 映射 了 指令 讨 、 记 和 33 的 地 址 。 在 这 个 例子 中 ， 预 测 需 的 0 号 计数 器 
c0 并 不 会 发 生 改变 ， 因 为 在 这 个 地 址 上 没有 分 支 指令 去 更 新 这 个 计数 器 。 而 其 他 两 个 计数 器 
则 被 其 映射 地 址 上 的 分 支 指令 的 执行 结果 所 更 新 。 表 中 每 次 预测 所 用 的 计数 器 都 用 黑体 字 
标 出 。 

每 一 次 分 支 预测 都 是 通过 检查 与 相关 预测 计数 器 的 MSB 来 进行 ， 该 预测 器 来 自 当 前 指令 
的 前 一 列 (一 如 既往 ， 每 一 列 所 包含 的 状态 都 是 前 边 指令 执行 的 结果 ， 并 且 预 测 都 是 发 生 在 指 
令 执行 之 前 ) 。 

这 种 预测 器 的 性 能 与 之 前 所 遇 到 的 预测 器 有 很 大 不 同 。 第 1 条 分 支 指令 在 每 次 循环 中 都 被 
正确 预测 。 第 2 条 分 支 指令 在 第 1 次 循环 和 最 后 一 次 循环 中 被 错误 预测 ， 而 在 循环 内 部 ， 无 论 
重复 几 次 循环 或 中 间 包 含 多 少 条 非 分 支 指令 ， 都 被 正确 预测 。 这 相对 于 5.7.3 节 中 的 那个 例子 
有 不 少 改进 。 

遗憾 的 是 ， 故 事 到 此 并 没有 结束 ， 因 为 当 预 测 器 变 得 强大 后 ， 就 会 受 如 框 5. 10 所 示 的 混 
到 效果 (aliasing effect) 影响 。 

局 部 预测 的 混 丢 
在 一 个 拥有 4 组 局 部 3 位 饱和 计数 器 预测 器 的 处 理 器 上 执行 以 下 汇编 代码 : 


0x0000 
0x1001 
0x1002 


loop0 DADD R1, R2, R3 
BGT loopl 


B loop2 


DSUB. R3, R3, RS 
B loop0 


0x1020 loopl 
Ox1021 


假设 R2 =0，R3 =2，R5 =1，c0、cl、c2 和 c3 都 被 初始 化 为 011， 且 loop2 所 指 的 代码 也 存在 。 

































































地 址 结果 分 支 预测 器 正确 
0x0000 ”Ris=2 
-| 一 一 
0x1001 执行 cl 一 100 不 
0x1020 R31 
0x1021 所 执行 cl 一 101 是 
0x0000 Rl<-1 
0x1001 执行 cleo—l110 是 
0x1020 R30 
= 1 
0x1021 执行 cl 一 111 是 
0x0000 R10 
Ox1001 不 执行 cle110 未 
0x1002 执行 恨 c2+—100 是 





在 这 个 表 中 ， 所 执行 指令 的 地 址 显示 在 最 左 列 ， 其 次 是 执 令 执行 的 输出 结果 ( 即 寄存 器 发 生 的 改 
变 ) ， 第 三 列 指出 分 支 指令 的 分 支 是 否 执行 ， 第 四 列 为 本 次 预测 所 更 新 计数 器 的 值 ， 预 测 正 确 与 否 在 最 
后 一 列 给 出 。 

总 体 而 言 ， 这 种 预测 很 成 功 。 然 而 ， 需 要 注意 的 最 重要 的 一 点 是 ， 这 里 只 使 用 了 两 个 预测 器 。 计 数 
器 cl 被 两 条 分 支 指令 共同 使 用 ( 即 混 倒 ) 一 一 在 地 址 0x0001 和 地 址 0x0021 上 的 分 支 指令 。 因 此 ， 虽然 
提高 了 局 部 预测 的 硬件 能 力 ， 但 是 我 们 并 没有 高 效 利用 它 。 为 了 更 好 地 在 不 同 分 支 中 使 用 这 些 计数 器 ， 
我 们 需要 引入 其 他 一 些 机 制 ， 其 中 两 种 我 们 将 在 5.7.7 节 和 5.7.8 节 中 描述 。 
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5.7.6 全 局 分 支 预 测 器 


基本 全 局 分 支 预 测 右 是 尝试 使 用 一 种 特殊 的 方法 在 基本 局 部 分 支 预测 器 的 基础 上 进行 改 
进 。 它 将 上 下 文 引入 分 支 预测 器 中 。 我 们 已 经 知道 了 分 支 预测 的 局 部 性 ， 但 是 局 部 分 支 预测 中 
的 混 闪 问题 使 得 在 相同 的 预测 器 中 不 同类 型 的 软件 都 有 分 支 地 域 性 。 

在 这 个 全 局 分 支 预测 器 中 ， 使 用 了 全 局 移 位 寄存 器 而 不 是 低位 地 址 位 (这 两 种 部 件 在 
5.7.4 节 中 都 有 简单 介绍 ) 对 计数 器 预测 器 阵列 进行 索引 。 其 整体 结构 如 图 5-14 所 示 ， 除 了 我 
们 将 要 讨论 的 计数 器 选择 机 制 之 外 ， 该 结构 看 起 来 与 局 部 预测 器 很 相似 。 
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图 5-14 全 局 预测 器 示意 图 。 它 带 有 一 组 计数 器 ， 它 们 通过 存储 了 前 上 个 分 支 指令 结果 的 移 位 寄存 器 的 
内 容 进行 索引 。 与 以 往 一 样 ， 当 分 支 执行 时 ， 与 之 相关 的 计数 器 增加 ; 当 分 支 不 执行 时 ， 计 数 
器 减少 。 计 数 器 会 饱和 而 不 是 循环 ， 由 此 它们 的 最 高 有 效 位 可 用 于 预测 分 支 。 全 局 移 位 寄存 器 
在 每 条 分 支 结果 确定 后 进行 更 新 


由 于 对 特定 分 支 进行 预测 的 计数 器 的 选择 是 基于 过 去 上 条 分 支 指令 的 结果 进行 的 ， 因 此 这 
种 预测 在 一 定 程 度 上 依赖 的 是 这 个 分 支 指令 是 如 何 到 达 的 ， 而 不 是 这 个 分 支 指令 位 在 内 存 的 什 
么 位 置 。 换 句 话 说 ， 它 更 像 一 个 基于 跟踪 的 选择 器 。 

在 一 些 条 件 下 ， 这 种 预测 选择 机 制 是 很 明智 的 : 例如 ， 一 个 简单 的 常规 库 函 数 会 被 一 段 代 
码 中 不 同 的 地 方 多 次 调用 ， 它 被 调用 时 的 行为 (相当 于 分 支行 为 ) 取决 于 要 求 它 做 什么 ， 即 
如 何 被 调用 (以 及 在 哪里 被 调用 ) 。 通 过 观察 许多 常规 软件 的 执行 轨迹 可 以 看 到 ,许多 复杂 的 
分 支 序列 都 被 重复 执行 。 通 过 使 用 这 种 预测 器 ， 可 以 让 分 支 序列 来 选择 预测 器 ， 使 得 不 同 的 计 
数 器 与 不 同 的 分 支 映 射 得 更 紧密 。 

我 们 通过 另 一 个 简单 的 例子 来 检查 一 下 这 种 全 局 预测 器 的 操作 : 


il loopl ADD R1, R1, R2 


i2 BEZ lpend 
13 SUB R8, R8, R1 
i14 B loopl 


i5 lpend NOP 


我 们 假设 初始 时 R1 =3，R2 = -1，R8 =10， 并 且 这 是 一 个 4 位 全 局 寄存 器 ( GR， 初始 为 
0000) ， 即 有 15 个 计数 器 预测 器 ， 每 个 为 3 位 ， 被 初始 化 为 011。 
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以 上 表 的 结构 与 前 面 几 节 遇 到 的 很 相似 ，GR 的 值 在 每 一 行 都 显示 一 一 只 有 一 个 GR， 并 且 在 
每 个 分 支 指令 之 后 都 被 更 新 。 虽 然 这 个 代码 循环 了 3 次 , 但 最 显著 的 特点 是 每 一 个 分 支 都 被 分 配 
到 了 不 同 的 计数 器 预测 器 上 。 即 使 是 在 同一 个 分 支 中 的 每 次 执行 使 用 的 也 是 不 同 的 计数 器 。 

总 体 而 言 ， 这 种 预测 器 算法 避免 了 混 又 问题 ， 而 分 支 指令 在 不 同 的 计数 器 预测 器 中 “ 混 
合 ” 在 一 起 ,但 遗憾 的 是 ， 其 分 支 历 史 被 丢弃 ， 而 我 们 是 可 以 用 历史 记录 来 很 好 地 对 这 特别 
是 这 分 支 进行 很 好 的 预测 的 。 

已 经 证 实 ， 在 比 这 个 小 代码 大 很 多 的 例子 中 ， 这 种 预测 器 的 性 能 十 分 好 : 它 执行 基于 循环 
的 测试 代码 获得 了 超过 90% 的 精确 度 。 然 而 ， 其 基本 缺点 还 是 存在 的 : 许多 局 部 性 信息 丢失 。 
因此 我 们 开始 转向 将 基于 行为 跟踪 选择 的 全 局 寄存 器 与 基于 地 址 的 局 部 选择 进行 混合 。 


5.7.7 G 选择 预测 器 


如 图 5-15 所 示 ，G 选择 预测 器 ( gselect predictor) 通过 考虑 将 要 被 预测 分 支 的 地 址 对 预测 
顺 进 行 更 新 。 事 实 上 ， 用 于 为 确定 分 支 而 选择 特定 计数 咒 预 测 器 〈 或 了 位 或 双 位 预测 器 ) 的 大 
位 索引 是 由 一 个 位 全 局 寄存 器 与 PC 的 最 低 m 位 联合 组 成 的 。 


FAAALALLALLLLLLLLLLNLLLLNNALLNNNLLI 
er 


土 counter 1 


ZZZZZZZZZZZZZZZZZZZZZZZZZTZTTTTPTT 


土 counter 2 










ssss 
NSSSSN 


N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 


SN 
| 
NSN CNNNNNNNN 


NNN CNNNNNN 







SS 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 
N 


RS 
NR 


士 Counter 3 


I 


4 土 Counter 24-1 
乡 


YY 


或 不 执行 





使 用 k=m+n 位 来 
选择 计数 器 


图 5-15 G 选择 预测 器 示意 图 。 它 有 一 组 计数 器 ， 通 过 存储 了 前 条 分 支 指 令 结果 的 移 位 寄存 器 的 内 容 
与 地 址 线 低 m 位 共同 进行 索引 。 同 样 ， 每 个 计数 器 在 分 支 执行 时 增加 ， 在 分 支 不 执行 时 减少 。 
计数 器 会 饱和 而 不 是 循环 ， 因 此 计数 器 的 最 高 有 效 位 可 以 用 于 分 支 预 测 。 全 局 移 位 寄存 器 在 每 
条 分 支 指令 确定 是 否 分 支 后 被 更 新 


| 结果 | 分 支 | GR | 预测 器 | 正确 
R8<—7 0010 
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例如 ， 如 果 上 =10， 则 由 一 个 4 位 全 局 寄存 器 G 及 地 址 线 A 的 6 位 组 成 ， 其 10 位 索引 
如 下 : 


[se [6 [6® [* | [| [% | [| 


G 选择 预测 器 非常 适合 那些 小 的 独立 预测 器 块 ， 这 可 能 是 指 它 非常 适合 于 那些 资源 受 限 的 
嵌入 式 系统 。 而 当 块 变 大 ， 也 许 为 >8 时 类 似 于 下 一 节 将 会 讨论 的 G 共享 机 制 ，G 选择 预测 
器 的 性 能 可 能 会 更 好 。” 


5.7.8 G 共享 预测 器 


G 共享 预测 器 是 5.7.7 节 中 G 选择 预测 器 的 精炼 。 将 如 图 5-16 所 示 的 G 共享 预测 器 与 如 
图 5-15 所 示 的 G 选择 预测 器 进行 比较 ， 唯 一 的 区 别 是 G 共享 预测 器 将 大 位 全 局 寄存 器 与 PC 的 
低 夺 位 进行 了 异 或 ， 用 于 对 预测 需 阵 列 进行 索引 。 
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图 5-16 G 共享 预测 器 示意 图 。 它 也 拥有 一 组 计数 器 ， 通 过 存储 了 前 条 指令 执行 结果 的 移 位 寄存 器 的 
内 容 与 地 址 线 低位 共同 进行 索引 (根据 两 个 位 数字 异 或 的 结果 选择 计数 器 )。 同 样 ， 每 个 
计数 器 在 分 支 执行 时 增加 ， 在 分 支 不 执行 时 减少 。 计 数 器 会 饱和 而 不 是 循环 ， 因 此 计数 器 的 最 
高 有 效 位 可 以 用 于 分 支 预 测 。 全 局 移 位 寄存 器 在 每 条 分 支 指令 确定 是 否 分 支 后 被 更 新 


G 共享 预测 器 与 G 选择 预测 器 和 全 局 分 支 预测 器 一 样 ， 只 要 进行 适当 的 设置 和 调节 ， 都 可 
以 获得 超过 90% 的 预测 准确 度 。 然 而 ，G 共享 预测 器 和 G 选择 预测 器 都 是 在 块 相对 较 小 的 情 
况 下 才能 获得 好 性 能 。 小 尺寸 块 〈 即 更 少 的 预测 计数 器 ) 意味 着 查找 过 程 可 以 变 得 很 快 。 除 
了 特别 小 的 块 以 外 ，G 共享 预测 器 比 G 选择 预测 器 性 能 更 佳 ， 因 为 它 能 更 好 地 将 不 相关 的 分 支 
指令 分 布 到 不 同 的 预测 器 上 。 换 句 话 说，G 共享 预测 器 可 以 看 到 分 支 在 计数 器 上 的 分 布 ， 而 C 
选择 预测 器 只 能 看 到 少数 计数 器 在 许多 分 支 指令 上 的 划分 。 


加 回忆 一 下 前 面 的 讨论 ， 高 性 能 取决 于 很 多 因素 ， 而 不 是 某 一 段 特 定 的 代码 。 当 我 们 从 整体 上 预测 性 能 时 ， 
是 没有 真正 的 代码 及 条 件 能 够 测试 出 某 种 机 制 的 优 劣 的 。 
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5.7.9 混合 预测 器 
我 们 应 该 可 以 强烈 地 感觉 到 ， 


不 同 程序 中 的 分 支 特性 应 该 会 千差万别 。 直 到 现在 ， 我 们 已 


经 提出 了 许多 预测 机 制 并 且 也 讨论 了 它们 各 自 的 优 缺 点 。 


现在 我 们 的 重点 是 要 找 出 一 种 性 能 最 好 
的 分 支 预测 机 制 。 但 是 ， 通 过 学 术 界 对 这 些 
机 制 独立 进行 的 测试 发 现 ， 它 们 都 是 分 别 对 
某 一 类 代码 会 获得 良好 的 性 能 。 因 此 ， 我 们 
应 该 将 这 些 预 测 机 制 进行 组 合 。 

这 正 是 所 谓 的 混合 预测 器 。 它 是 将 多 种 
预测 机 制 集合 在 一 起 ， 预 测 时 通过 一 个 逻辑 
选择 最 合适 的 预测 机 制 。 图 5-17 展示 了 在 A 
和 B 两 种 预测 机 制 中 进行 选择 的 方案 (与 
5.7.5 节 的 双 模 预测 器 看 起 来 有 些 类 似 )。 
在 这 个 方案 中 ，A/B 选择 器 用 于 记录 A、B 
两 个 预测 器 预测 的 准确 性 。 哪 一 种 预测 器 预 
测 的 结果 最 准确 ， 就 选择 其 作为 整个 系统 的 
预测 器 。 

我 们 可 以 预期 ， 不 同 的 程序 ， 或 程序 中 
不 同 的 区 域 ， 会 趋向 于 不 同 的 预测 器 ， 而 这 
在 实际 测试 中 也 得 到 了 验证 。 

一 个 最 著名 的 混合 预测 器 的 例子 是 建立 





使 用 预测 疾 A 


上 凡 
2 a 


图 5-17 两 种 不 同 的 预测 器 ， 它 们 各 自 的 特点 符 
合 某 种 特定 代码 类 型 的 需求 ， 可 以 将 这 
两 种 预测 器 结合 起 来 。 结 合 的 方法 之 一 
是 采用 一 个 与 双 位 预测 器 十 分 相似 的 双 
位 状态 机 ， 来 选择 最 佳 的 预测 方式 。 在 
这 个 状态 机 中 ， 如 果 两 个 预测 器 在 任何 
状态 都 预测 正确 ， 我 们 就 认为 不 发 生 状 
态 转 移 


在 Alpha 21264 处 理 器 上 的 。 图 5-18 是 其 示意 图 。 在 该 图 中 ， 所 示 的 A/B 预测 器 用 于 选择 全 局 


预测 器 或 两 层 局 部 预测 器 。 





全 局 预测 器 


1024 个 
3 位 
饱和 计数 器 


2 


两 层 局 部 预测 器 


图 5-18 ”Alpha 21264 处 理 器 混合 预测 器 示意 图 。 它 使 用 一 个 与 图 5-17 所 示 的 AB 预测 器 很 相似 的 状态 机 
(最 左边 的 模块 ) 来 选择 是 使 用 全 局 预测 器 还 是 两 层 局 部 预测 器 ， 从 而 获得 优秀 的 预测 性 能 
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全 局 预测 器 使 用 12 位 分 支 历史 记录 器 在 4096 个 2 位 预测 器 中 进行 选择 。 这 个 预测 器 精确 
地 预测 了 分 支行 为 。 换 句 话 说， 它 真实 地 反映 了 是 如 何 到 达 一 个 特定 分 支 语句 的 〈 参 见 
325 人》 

局 部 预测 器 使 用 地 址 线 的 低 10 位 在 1024 个 10 位 移 位 寄存 器 预测 器 中 进行 选择 。 这 个 移 
位 寄存 器 预测 器 是 一 个 局 部 版 的 全 局 预测 器 ， 它 记录 了 发 生 在 当前 低 10 位 地 址 上 的 所 有 分 支 
历史 。 注 意 ， 不 要 误 以 为 地 址 线 和 移 位 寄存 器 都 必须 为 10 位 ， 它 们 可 以 有 不 同 的 位 宽 。 

移 位 寄存 器 的 值 将 用 于 在 1024 个 3 位 饱和 计数 器 〈 分 别 预测 不 同 的 分 支 ) 中 进行 选择 。 
预测 的 结果 是 这 些 计数 器 的 最 高 有 效 位 〔MSB ) 。 

Alpha 21264 中 的 预测 器 使 用 了 多 层 结构 〈 针 对 局 部 预测 ) ， 并 在 两 个 不 同 的 预测 器 中 进行 
动态 选择 。 它 像 是 结合 了 我 们 至 今 所 讨论 过 的 所 有 预测 机 制 。 

然而 ， 我们 还 要 检测 它 的 性 能 。 在 CPU 中 给 定 一 个 有 限 的 空间 来 支持 分 支 预测 ， 我 们 应 
该 考虑 这 个 空间 适合 使 用 哪 种 预测 机 制 或 者 是 用 来 改进 流水 线 的 某 个 方面 。 

这 个 问题 在 1993 年 得 以 解答 ， 在 这 一 年 中 数字 仪器 公司 (DEC) 的 Alpha 21264 处 理 融 的 
分 支 预测 单元 被 设计 出 来 。 对 它 的 测试 表明 ， 混 合 方法 的 性 能 超越 了 相等 规模 的 全 局 预测 器 和 
相等 规模 的 局 部 预测 器 。 事 实 上 ， 这 种 处 理 器 的 分 支 预测 器 在 实际 代码 中 正确 率 达 到 了 
98% 一 一 这 是 一 个 即使 在 最 先进 的 处 理 器 上 也 很 难 被 超越 的 成 绩 。 


5.7. 10 分 支 目标 缓冲 . 

正如 我 们 在 前 几 节 所 看 到 的 ， 分 支 预测 器 可 以 清楚 地 知道 是 否 执行 某 个 特定 的 分 支 。 回 到 
我 们 需要 预测 分 支 的 原因 上 ， 这 是 为 了 提高 所 预测 的 执行 代码 是 正确 代码 的 概率 ， 降 低 清空 流 
水 线 的 可 能 性 。 

我 们 需要 预测 执行 代码 的 主要 原因 之 一 是 ， 当 一 个 分 支 执行 时 ， 甚 目标 地 址 是 按 相 对 偏 移 
存储 的 ， 需 要 通过 ALU 将 偏 移 量 与 当前 PC 值 相 加 来 得 出 ， 这 个 过 程 需要 使 用 ALU ， 而 在 处 理 
器 上 并 没有 为 地 址 计算 设计 独立 的 ALU， 地 址 计算 需要 在 分 支 指令 进行 到 “执行 ”阶段 时 共 
享 流水 线 上 的 ALU， 这 在 5. 2. 8 节 中 已 经 讨论 过 。 

然而 ， 即 使 我 们 正确 地 预测 了 某 一 个 分 支 是 否 会 执行 ， 我们 还 是 需要 进行 这 个 地 址 计算 。 
换 句 话说 ,我 们 可 以 很 快 地 进行 预测 ， 但 是 我 们 需要 等 待 计算 完成 (或 至 少 两 者 同时 进行 
这 样 就 是 等 待 两 者 之 间 的 最 慢 者 ) 。 

所 以 计算 机 体系 结构 设计 师 会 得 出 这 样 一 个 巧妙 的 想法 : 为 什么 不 将 目标 地 址 存储 在 预测 
器 上 ? 与 其 简单 地 预测 执行 分 支 或 不 执行 分 支 ， 为 什么 不 预测 整个 目标 地 址 ? 毕竟 ， 分 支 指令 
只 会 分 支 到 唯一 一 个 地 址 ， 而 如 果 我 们 能 够 记录 分 支行 为 ,那么 我 们 也 能 够 轻松 地 记录 下 分 支 
的 地 址 。 这 就 是 分 支 目标 缓冲 (BTB) 所 要 做 的 。 

使 用 BTB 意味 着 如 果 我 们 预测 正确 并 且 当 前 分 支 已 经 至 少 被 执行 过 一 次 ， 则 不 需要 等 待 
ALU 计算 出 分 支 目标 地 址 。 图 5-19 给 出 了 BTB 的 流程 图 。 当 进行 分 支 预测 时 ， 我 们 首先 查看 
BTB。 如 果 BTB 命中 〈 当 前 分 支 指令 在 BTB 中 有 一 个 记录 ， 即 之 前 已 经 遇 到 过 该 条 指令 ) ， 则 
将 BTB 中 的 目标 地 址 装载 进 PC， 预 测 从 该 地 址 执行 。 

一 旦 确定 是 否 执行 分 支 (对 于 非 条 件 分 支 为 立即 获得 ， 而 对 于 条 件 分 支 则 要 等 到 条 件 设 置 
指令 执行 完毕 ) ， 我 们 就 知道 是 否 要 继续 执行 这 个 预测 ， 或 是 要 清空 流水 线 ， 然 后 更 新 BTB 并 
取出 正确 的 指令 。 

而 如 果 BTB 不 命中 ， 则 预测 分 支 不 执行 。 当 分 支 结果 确定 时 ， 如 果 应 当 执行 ， 则 将 目 
标 地 址 更 新 至 BTB， 如 果 已 经 预测 执行 ， 则 还 应 清空 流水 线 ， 然后 分 支 至 正确 的 地 址 继续 
执行 。 
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和 


指令 所 在 的 地 址 作为 标志 ,一 









按 正 常规 则 执行 


跳 转 至 BTB oe 


、 ”上 的 分 支 地 址 
> 预测 错误 ， 更 新 BTB， 清 空 流水 线 
按 正 常规 则 执行 ， 
计算 目标 地 址 并 执行 分 支 。 
用 结果 更 新 BTB 
按 正常 规则 执行 


图 5-19 BTB 流程 图 
实际 上 ， 如 图 5-20 所 示 的 BTB 中 的 内 容 看 起 来 与 内 存 的 cache ( 见 4.4 节 ) 很 像 ， 以 分 支 


个 记录 存储 了 分 支 预测 〈 可 以 使 用 我 们 之 前 讨论 过 的 任何 预测 器 


算法 ) 和 目标 地 址 。 像 cache 一 样 ，BTB 也 可 以 为 全 关联 、 组 关联 ， 或 者 更 为 奇特 的 关联 


方法 。 


| 分支 指令 的 地 址 _ | 


- 分 支 指 人 的 地 址 。 ”| ”分 支 需 测 器 ”| 


分 支 指令 的 地 址 | 分 支 现 测 器 mr 


“分 支 指令 的 地 址 四 本 | | 


呈 的 一 


一 — | 和文 器 “| 日 标 址 | 


分 支 指令 的 地 址 。 ”|】 。 分 支 预测 器 we WW 





分 支 指令 的 地 址 。 ”| ”分 支 预测 器 EE ET 


图 5-20 BTB 结构 图 。 它 的 组 织 与 cache 相似 ， 而 实际 上 它 所 完成 的 功能 也 
与 cache 相似 ， 是 为 了 减少 访问 它 所 存储 的 指令 的 时 间 


然而 ，BTB 的 讨论 并 没有 到 此 为 止 ， 还 有 一 个 重要 的 改进 : 想 一 想 在 CPU 分 支 到 目标 地 
址 时 发 生 了 什么 一 一 它 将 目标 地 址 处 的 指令 装载 进 流 水 线 。 i 它 进行 译 码 和 执行 


时 ， 之 前 的 分 支 指令 已 经 执行 


水 线 。 


完毕 ， 所 以 此 时 可 知 这 条 指令 应 该 被 继续 执行 还 是 被 清 出 流 


但 是 我 们 可 以 通过 将 这 条 指令 〈 而 不 是 这 条 指令 的 地 址 ) 存储 在 BTB 中 来 提早 完成 这 个 
过 程 。 这 样 在 BTB 命中 时 ， 就 可 以 直接 把 所 保存 的 指令 送 入 流水 线 而 不 需要 再 经 过 取 指 阶段 。 


5.7.11 基本 代码 段 


对 于 5.7. 10 节 介绍 的 BTB 技术 还 有 一 些 改 进 值得 注意 ， 这 些 改进 是 针对 一 段 代 码 而 不 是 
独立 的 指令 而 进行 的 。 实 际 上 ， 对 单独 指令 的 移动 也 会 涉及 一 整 段 代 码 的 修改 。 在 计算 机 体系 
结构 领域 和 软件 体系 结构 领域 中 常 使 用 以 下 3 种 类 型 的 代码 段 : 
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。 基本 代码 段 (basic block ) : 是 指 按 顺 序 执行 没有 分 支 进入 或 分 支出 去 的 指令 序列 〈 即 
只 有 一 个 人 口 和 一 个 出 口 ) 。 

。 超级 代码 段 (super block) : 是 指 基本 代码 段 的 一 个 执行 轨迹 ,但 其 只 有 一 个 人 口 ， 可 
能 有 多 个 出 口 。 

。 特级 代码 段 (hyper block) : 是 指 与 超级 代码 段 相 似 的 多 个 基本 代码 段 集 合 ， 其 只 包含 
一 个 人 口 ， 可 能 有 多 个 出 口 。 与 超级 代码 段 不 一 样 的 是 特级 代码 段 有 多 条 执行 轨迹 
( 即 多 个 控制 路 径 ) 。 

在 本 节 中 ， 我 们 将 讨论 范围 限制 为 最 简单 的 基本 
代码 段 ， 为 基于 代码 段 的 BTB 方法 所 采用 。 想 象 一 下 
BTB ， 或 者 内 存 的 cache， 可 以 存储 一 段 指 令 并 将 它们 
送 入 流水 线 。 对 于 支持 指令 重 排 ( reorder) 或 乱 序 执 
行 的 流水 线 ， 这 种 方法 可 以 获得 最 大 的 灵活 性 及 最 佳 
性 能 提升 。 

基本 代码 段 可 以 由 分 支 指令 及 其 目标 地 址 之 间 的 
一 串 指 令 组 成 ， 而 程序 的 执行 轨迹 可 以 由 一 系列 基本 
代码 段 的 连接 图 来 标识 。 图 5-21 展示 了 一 个 由 多 个 基 
本 代码 段 组 成 的 路 径 图 。 

首先 我 们 预测 了 分 支 是 否 会 执行 ， 其 次 我 们 也 预 
测 了 分 支 的 目标 地 址 ， 最 后 我 们 预测 了 目标 地 址 指令 。 
现在 我 们 可 以 预测 基本 代码 段 。 

通过 标定 出 重复 和 频繁 使 用 的 基本 代码 段 ， 我 们 
可 以 将 其 缓存 起 来 并 快速 发 送 。 例 如 ， 参考 图 5-21， 
一 个 BTB 块 可 以 直接 将 包含 了 Bl1、B2、B5 和 B6 的 指 
令 发 送 至 流水 线 而 不 需要 分 支 一 一 假设 我 们 已 经 正确 
地 预测 了 这 些 块 的 路 径 。 

当然 ， 我 们 仍 需 要 检查 所 预测 的 分 支行 为 是 否 正 
确 ， 且 在 预测 错 的 时 候 仍 需要 清空 流水 线 。 在 实际 代 图 5-21 执行 一 个 程序 时 将 一 组 基本 
码 中 ， 可 能 包含 了 多 个 基本 代码 段 (BB) ， 每 个 代码 模块 互联 起 来 的 路 径 图 
段 可 能 包含 数 十 条 指令 (平均 每 个 BB 的 大 小 约 为 7 条 指令 ,但 是 对 于 不 同 的 计算 、 不 同 的 处 
理 器 及 编译 器 是 不 同 的 ) 。 

跟踪 cache 随 着 时 间 的 推移 不 断 更 新 ， 并 且 每 当 CPU 命中 根 BB ( B1) ， 分 支 预测 算法 就 要 
对 未 来 路 径 进 行 预测 。 如 果 此 预测 与 跟踪 cache 的 第 二 个 人 口 (B2) 相符 ， 即 为 命中 ，CPU 开 
始 执 行 来 自 跟踪 预测 的 基本 代码 段 内 容 〈 这 些 指令 也 被 存储 在 cache 中 ) 。 

这 种 系统 在 奔腾 4 处 理 器 上 得 到 了 应 用 ,但 不 同 的 是 ， 在 奔腾 4 处 理 器 上 的 系统 不 缓存 
BB 内 的 指令 ， 而 是 存储 器 译 码 后 的 指令 内 容 ， 即 我 们 不 仅 可 以 绕 过 流水 线 中 的 “ 取 指 ”阶段 ， 
而 且 可 以 绕 过 “ 译 码 ”阶段 。 


5.7. 12 分 支 预测 总 结 

在 前 面 几 节 里 ,我 们 花 了 很 大 精力 对 如 何 保持 流水 线 不 间断 地 执行 指令 进行 了 讨论 。 所 有 
在 分 支 预测 、 加 速 等 方面 付出 的 努力 都 是 为 了 尽 可 能 快 地 发 送 指令 。 流 水 线 以 及 指令 级 并 行 都 
是 保证 指令 能 够 快速 且 高 效 执行 的 方法 。 

我 们 需要 注意 的 是 ， 没 有 一 种 独立 的 技术 是 最 佳 的 ， 只 有 合理 地 选择 多 种 技术 并 让 它们 相 
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互 融 洽 地 配合 才能 获得 最 理想 的 性 能 。 
还 有 一 点 需要 注意 ,硬件 的 加 速 少不了 优秀 的 编译 器 支持 ”， 将 一 部 分 努力 花 在 搭建 一 个 
好 的 编译 器 上 比 把 所 有 努力 都 花 在 硬件 提速 上 可 以 获 利 更 多 。 


5.8 并 行 机 器 

2.1.1 节 介 绍 了 Flynn 的 处 理 器 分 类 方法 ， 其 根据 处 理 指令 和 数据 的 方法 将 处 理 器 分 为 了 4 
组 ， 分 别称 为 ; 

。 SISD 一 一 单 指 令 流 单数 据 流 。 

。 SIMD 一 一 单 指令 流 多 数据 流 。 

。 MISD 一 一 多 指令 流 单 数据 流 。 

。 MIMD 一 一 多 指令 流 多 数据 流 。 

总 的 来 说 ， 我 们 讨论 至 此 一 直 都 只 考虑 SISD 机 器 一 一 在 租 人 式 系 统 及 台式 机 中 常见 的 微 
处 理 器 。 我 们 也 讨论 了 一 些 在 MMX 和 SSE 单元 中 ( 见 4.5 节 ) 以 及 在 一 些 ARM 专用 协 处 理 
器 〈 见 4.8 节 ) 上 遇 到 的 SIMD 要 素 。 我 们 将 跳 过 MISD ， 其 大 部 分 都 应 用 在 容错 系统 〈fault- 
tolerant system) 上 ， 例 如 对 数据 进行 多 次 计算 然后 比较 每 次 计算 的 结果 一 一 这 些 将 会 在 7. 10 
节 中 进行 更 深入 的 讨论 。 接 下 来 我 们 将 讨论 SIMD 和 MIMD。 

在 写 此 书 的 时 候 ， 处 理 器 产业 已 经 由 SISD 扩展 至 SIMD 和 MIMD。MIMD 机 器 因此 变 得 越 
来 越 流行 。 我 们 在 4.5 节 中 已 经 讨论 了 一 些 常 用 的 协 处 理 器 ， 它 在 主 CPU 上 扩展 一 些 功能 单元 
用 于 执行 各 种 特殊 功能 。 这 里 ， 我 们 将 更 进一步 讨论 在 MIMD 结构 下 多 个 相同 的 处 理 器 一 起 并 
行 工作 。 

准确 地 说 ， 在 计算 机 里 有 不 同 层次 的 并 行 ， 而 “并 行 机 器 ”是 一 种 比较 广泛 的 定义 。 让 
我 们 先 来 简单 了 解 一 下 不 同 层 次 的 并 行 : 

。 位 级 并 行 : 与 计算 机 的 字 长 相关 。 一 个 8 位 计算 机 并 行 处 理 8 位 数据 ， 而 32 位 机 器 通 

过 将 字 长 乘 以 4， 可 以 同时 处 理 4 倍 于 它 的 数据 。 

。 指令 级 并 行 : 是 一 系列 技术 的 集合 ， 它 们 允许 同时 执行 多 条 指令 。 正 如 我 们 已 经 看 到 
的 许多 例子 那样 ， 不 同 的 指令 可 以 同时 重 全 执行 ， 只 要 它们 之 间 没 有 数据 相关 。 流 水 
线 就 是 这 样 一 个 例子 ， 而 超标 量 机 器 、 协 处 理 器 以 及 Tomasulo 算法 ( 见 5.9 节 ) 也 是 
指令 级 并 行 的 例子 。 

。 向 量 并 行 : 与 SIMD 机 器 相关 ， 它 们 处 理 的 是 整个 向 量 中 的 数据 而 不 是 单一 字 长 的 数 

据 。SSE 和 MMX 都 是 这 种 类 型 并 行 的 例子 。 

。 任务 并 行 : 是 指 整个 任务 或 程序 子 程序 和 函数 可 以 同时 被 不 同 的 硬件 执行 。 我 们 将 在 
本 节 对 其 进行 讨论 。 

e 机 器 并 行 : 是 指 大 型 公司 ， 如 Google、Amazon 所 采用 的 服务 器 堆 (server farm) 。 它 们 

包含 了 上 百 甚至 上 千 台 单独 的 计算 机 ， 每 台 计算 机 都 为 某 一 个 特定 任务 而 并 行 运行 。 
我 们 将 在 12. 2 节 对 这 种 系统 进行 讨论 。 

图 5-22 展示 了 这 些 不 同 层次 的 并 行 ， 概 括 地 表示 了 从 通过 指令 按 位 操作 向 更 高 层次 并 行 
的 发 展 。 

在 讨论 并 行 处 理 的 同时 ， 指 出 什么 需要 “联合 ” (coupling) 并 行 执行 是 很 必要 的 。 广 义 的 联 
合 (loosely coupled) 并 行 处 理 指 不 同 的 并 行 执行 线程 没有 相关 性 ， 可 以 独立 地 执行 。 这 种 任务 可 
以 很 容易 地 被 独立 的 并 行 处 理 器 核 分 别 执行 。 例 如 ， 有 两 个 来 自 不 相关 用 户 的 Google 搜索 请 求 ， 


加 ”推荐 使 用 GCC (GNU Complier Collection ) 。 
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在 Coogle 服务 咒 堆 里 分 别 由 两 台 机 顺 响 应 。 另 一 方面 ， 紧 密 的 联合 〈tightly coupled) 任务 之 间 的 
相关 性 则 很 强 。 它 们 可 能 需要 共享 数据 ， 经 常 进行 通信 ， 并 且 出 现 一 个 任务 与 另 一 个 任务 相关 的 
状况 。 如 果 将 两 个 任务 都 放 在 同一 台 机 器 上 执行 ,这样 两 台 机 器 之 间 的 通信 就 不 会 成 为 性 能 的 瓶 
颈 。 自 然 ， 根 据 任务 的 不 同 ， 机 器 的 体系 结构 可 以 是 广义 的 联合 ， 也 可 以 是 紧密 的 联合 。 


基本 的 位 处 理 


im 0 yy 
WB ” 
GB 





[OO 





A 
I 
LA 


任务 并 行 





图 5-22 不 同 层次 并 行 示意 图 。 展 示 了 从 最 原始 的 按 位 操作 不 断 向 高 层次 
并 行 的 发 展 ， 这 种 发 展 建立 在 不 断 重复 最 基本 的 并 行 操作 之 上 
对 于 计算 机 体系 结构 ， 并 行 中 常用 的 大 多 是 那些 我 们 之 前 所 讨论 的 顶尖 结构 。 我 们 已 经 涉 
及 了 大 部 分 计算 机 种 类 ， 稍 后 将 再 次 讨论 大 规模 并 行 机 器 ,但 现在 ,我 们 将 讨论 的 是 任务 并 行 
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这 一 层次 。 这 种 并 行 比 超标 量 和 向 量 计 算 机 的 层次 要 高 ， 比 机 器 并 行 要 低 。 任 务 并 行 在 台式 机 
领域 里 变 得 越 来 越 重 要 ， 并 且 逐 渐 影 响 着 符 和 信 式 领域 。 

在 并 行 中 有 两 个 重要 的 演变 , 我 们 将 依次 进行 讨论 。 第 一 个 是 由 带 有 附加 功能 单元 的 
SISD 向 MIMD 的 演变 。 第 二 个 是 为 了 提高 性 能 而 采用 并 行 。 我 们 将 在 接 下 来 的 几 个 小 节 里 对 这 
两 个 演变 进行 讨论 。 


5.8.1 SISD 向 MIMD 的 演变 


写 一 个 SISD 的 程序 是 比较 简单 的 一 一 从 程序 员 的 角度 ， 在 任何 时 刻 通 常 只 需 考 虑 一 件 事 
情 ， 并 且 程 序 在 分 支 之 后 都 是 按 顺序 执行 。 在 早期 的 程序 存储 计算 机 上 ， 设 计 人 员 所 愿意 看 到 
的 是 : 装载 今天 的 程序 然后 执行 它 ， 明 天 再 装载 不 同 的 程序 然后 执行 。 改 变 任 务 只 需 更 换 不 同 
的 打 孔 卡 即 可 。 

几 十 年 间 ， 计 算 机 被 广泛 接受 ， 软 件 已 经 开始 由 以 计算 为 主导 〈 如 会 计 计 算 、 模 拟 计 算 、 
方程 求解 等 ) 经 由 控制 领域 (如 传感器 监控 、 自 动 化 控制 等 ) 转向 解决 复杂 的 多 任务 ,通常 
包括 智能 感知 (multisensory) 、 沉 浸 式 人 机 界面 (immersive human-computer interfacing) 等 。 

以 往 的 计算 机 只 需要 在 一 段 时 间 内 完成 一 个 任务 ， 而 现在 的 计算 机 (包括 台式 机 和 租 入 式 
系统 ) 几乎 都 需要 同时 处 理 多 个 并 发 任务 。 这 些 不 同 的 任务 都 包含 了 不 同 的 时 间 和 操作 需求 。 
6.4 节 将 对 实时 任务 进行 讨论 ， 这 里 只 需 认 为 软件 通常 需要 在 不 同 的 时 间 执 行 不 同 的 代码 段 。 
程序 的 每 一 段 代码 都 可 以 看 作 一 个 独立 的 任务 ， 因 此 程序 可 以 划分 为 不 同 的 任务 ， 完 成 不 同 的 
功能 ， 它 们 可 以 在 同一 计算 机 上 的 不 同时 间 内 完成 。 

通常 ， 这 些 任务 都 带 有 独立 性 ， 因 此 通常 不 同 任务 间 会 产生 需求 冲突 。 一 般 而 言 ， 当 面 对 两 
个 (或 多 个 ) 冲突 需求 时 ， 系 统 体系 结构 设计 师 通 常会 将 系统 划分 为 多 个 部 分 ， 让 硬件 和 软件 的 
不 同 部 分 分 别 满足 多 个 需求 。 划 分 通常 是 针对 软件 的 让 软件 的 两 个 部 分 分 别处 理 两 个 不 同 的 方 
面 ， 但 共享 CPU 资源 。 然 而 ,硬件 也 可 以 被 划分 ， 如 让 两 个 处 理 器 分 别处 理 一 个 任务 。 

可 以 用 一 个 简单 的 例子 来 说 明 需 求 冲突 ， 即 台式 机 运行 一 个 使 用 鼠标 控制 的 视窗 桌面 显 
示 ， 同 时 运行 一 个 MP3 后 台 播 放 系 统 。 在 这 个 例子 中 ，MP3 后 台 播 放 系 统 需 要 进行 数学 计算 
来 处 理 音 频 流 ， 而 音频 的 各 个 采样 需要 及 时 地 输出 ,任何 一 个 采样 被 延 时 都 会 产生 “ 味 只 ” 
声 甚 至 是 噪声 。 系 统 的 设计 人 员 已 经 意识 到 这 一 点 ， 提 高 了 MP3 后 台 播 放 的 优先 级 ， 这 种 提 
高 使 MP3 后 台 播 放 系 统 能 够 在 任何 时 候 运 行 而 不 需要 等 待 别 的 任务 运行 完毕 。 遗 憾 的 是 ， 用 
户 由 此 通过 鼠标 去 控制 播放 器 时 会 发 现 鼠 标 指针 移动 不 流畅 。 解 决 的 办 法 就 是 将 鼠标 指针 的 优 
先 级 设 为 比 MP3 播放 器 高 ， 更 好 的 方法 是 采用 动态 优先 级 系统 。 

然而 还 可 以 有 第 三 种 选择 : 使 用 MIMD 系统 ， 它 允许 一 台 机 器 包含 两 个 〈 或 多 个 ) 指令 流 
和 数据 流 ， 并 同时 处 理 它们 。 由 此 ，MIMD 就 不 需要 分 时 共享 单一 的 处 理 器 资源 ， 但 由 于 两 个 
(或 多 个 ) 处 理 器 在 同一 个 芯片 上 ， 因 此 需要 共享 内 存 和 外 设 ， 可 以 高 效 地 处 理 多 个 任务 。 

图 5-23a 展示 了 几 种 可 供 选 择 的 硬件 ， 给 出 了 一 个 基本 的 SISD 处 理 器 、 一 个 共享 内 存 的 
MIMD 处 理 器 和 一 个 SIMD 处 理 器 。 这 个 SISD 处 理 器 拥有 一 个 ALU 、 一 个 乘法 器 、 一 个 IO 模 
块 、 一 个 内 存 模块 、 一 个 控制 单元 和 一 个 取 指 / 译 码 单元 (IU)。4 个 寄存 器 与 内 部 三 总 线 相 
连 。 给 定 两 个 软件 任务 在 这 个 SISD 处 理 器 上 运行 ， 需 要 各 自 的 时 间 片 。 在 图 5-23b 中 ， 加 入 
几 个 额外 的 功能 单元 进而 转变 成 了 SIMD 处 理 器 ， 它 可 以 对 多 个 数据 同时 进行 计算 一 一 由 此 允 
许 将 两 个 任务 混合 在 软件 里 同时 运行 。 由 于 这 种 处 理 器 并 不 是 SISD 处 理 器 的 完全 升级 ， 因 此 
内 部 总 线 布局 成 了 它 的 瓶颈 。 在 图 5-23c 中 展示 的 是 一 个 共享 内 存 的 MIMD 处 理 器 ， 每 个 独立 
的 CPU 都 有 独立 的 总 线 系统 ， 是 真正 意义 上 的 并 行 。 它 在 一 个 芯片 上 包含 了 两 个 完整 的 处 理 
器 核 ， 但 是 共享 外 部 存储 也 成 了 它 的 瓶颈 。 
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图 5-23 ” 几 种 处 理 带 的 示意 图 
a) 一 个 基本 的 SISD 处 理 器 ， 包 含 4 个 功能 单元 (ALU、 乘 法 器 、1/O 模块 和 内 存 模块 ) 、 一 个 控制 单元 和 一 个 取 指 / 译 
码 单元 (IU) ， 它 们 都 与 一 组 寄存 器 相连 ; b) 一 个 SIMD 处 理 器 ， 它 增加 了 如 图 所 示 的 额外 功能 单元 ; c) 一 个 完全 共 
享 存储 的 MIMD 处 理 器 ， 它 在 一 个 芯片 上 包含 了 两 个 完整 的 处 理 器 核 


与 将 软件 划分 为 独立 的 线程 时 一 样 ， 处 理 器 设计 人 员 也 遇 到 了 时 钟 频率 、 数 据 位 宽 等 限制 ， 下 
一 个 性 能 的 提高 方向 转向 了 提高 并 行 度 一 一 这 正 是 由 SISD 到 SIMD 最 后 到 MIMD 的 历程 。 

在 从 入 式 计 算 领 域 ，ARM946 双核 平台 (Dual Core Platform，DCP) 是 一 个 重要 的 双核 解 
决 方案 。 它 将 两 个 ARM9 核 集成 在 一 个 芯片 上 ， 共 享 存储 接口 和 片上 通信 接口 。 图 5-24 给 出 
了 这 个 处 理 器 的 结构 图 。 





























图 5-24 ARM946 双核 平台 的 模块 图 


这 个 处 理 需 为 广义 联合 (loosely-coupled ) 、 前 集成 ( pre-integrated) 双核 结构 ， 它 在 硬件 
上 支持 同步 调试 和 程序 跟踪 。 大 部 分 的 软件 和 固件 都 支持 这 个 系统 ， 并 且 支 持 ARM9 的 操作 系 
统 也 能 在 这 个 处 理 器 上 运行 。 这 些 软件 的 支持 包含 了 可 以 让 不 同 的 软件 线程 (任务) 运行 在 
不 同 的 处 理 器 核 上 ， 通 过 硬件 通信 接口 (图 中 标 为 “通信 电路 ”) 进行 仲裁 。 

虽然 这 里 通过 ARM946 介绍 并 行 计 算 ， 但 它 的 本 质 仍 是 一 个 双核 处 理 器 而 不 是 一 个 并 行 机 器 。 
两 个 处 理 器 核 相 比 多 个 独立 单元 更 容易 进行 同步 ， 并 且 在 此 例 中 核 独立 外 设 都 被 设置 了 两 份 。 

由 于 这 些 处 理 器 都 是 针对 和 能 人 式 应 用 而 开发 的 ， 一 种 可 能 的 系统 划分 为 : 用 户 界面 代码 运 
行 在 一 个 处 理 器 核 上 ， 每 当 有 用 户 调用 时 就 会 被 触发 运行 ， 而 媒体 处 理 (有 实时 性 ) 运行 在 
另外 一 个 处 理 器 核 上 。 或 者 对 于 一 个 基于 无 线 局 域 网 的 音频 设备 ， 一 个 核 运行 MP3 解码 ， 另 
一 个 核 运行 Ethernet 处 理 。 
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不 管 面 对 什 么 样 的 应 用 ， 这 种 双核 处 理 需 都 将 逐渐 成 为 主流 。 它 们 已 经 开始 占据 处 理 器 市 
场 。 而 在 未 来 ， 更 多 的 核 将 被 集成 在 一 起 来 满足 不 断 增长 的 性 能 需求 。 


5. 8.2 为 提高 性 能 而 采用 并 行 


我 们 已 经 提 到 了 计算 机 设计 人 员 为 提高 性 能 而 面临 的 压力 。 虽 然 摩 尔 定律 已 经 很 好 地 得 到 
了 验证 ,但 是 消费 者 还 是 希望 在 他 们 的 性 能 已 经 很 高 的 计算 机 上 获得 更 多 的 性 能 提升 。 

或 许 软 件 设 计 人 员 也 已 经 学 会 了 期 待 计算 机 的 能 力 (还 有 内 存 大 小 ) 逐年 增长 ， 而 计算 
机 体系 结构 设计 师 也 总 是 在 抱怨 程序 员 一 一 这 种 抱怨 源 于 计算 机 发 展 史 上 软件 设计 人 员 与 计算 
机 设计 人 员 的 划分 。 大 部 分 的 计算 机 设计 人 员 都 认为 他 们 可 以 将 软件 设计 得 比 程序 员 实际 设计 
的 更 好 。 

不 管 这 样 的 说 法 是 否 成 立 ， 不 断 增长 的 软件 规模 〈 通 常 被 计算 机 体系 结构 设计 师 认 为 是 腾 
肿 的 ) 和 不 断 下 降 的 运行 速度 ， 消 耗 掉 了 大 部 分 通过 体系 结构 发 展 、 时 钟 频率 提高 、 智 能 的 流 
水 线 技术 等 所 获得 的 性 能 提高 。2009 年 典型 的 台式 计算 机 的 速度 "就 比 作者 10 年 前 所 用 的 计 
算 机 至 少 快 50 倍 一 一 但 是 网 页 的 装载 速度 仍旧 很 慢 ， 保 存 和 读 取 文件 仍旧 很 慢 ， 加 载 操 作 系 
统 仍旧 耗费 10 秒 左右 的 时 间 。 但 除了 CPU 本 身 的 因素 外 ， 其 他 的 外 部 因素 也 在 影响 着 速度 ， 
如 Internet 等 连接 设备 以 及 硬盘 等 的 有 限 速 度 。 就 软件 范围 来 讲 ， 没 有 什么 是 当前 计算 机 可 以 
完成 而 老 的 计算 机 是 无 法 完成 的 ,但 是 一 个 操作 系统 却 已 经 由 几 十 个 MB 膨胀 到 超过 1GB。 

这 并 不 是 要 把 责任 分 挫 到 软件 设计 人 员 ， 而 是 因为 软件 规模 和 复杂 度 都 已 经 在 逐年 增长 : 
在 一 台 10 年 前 的 计算 机 上 运行 当前 的 大 部 分 软件 是 难以 想象 的 ， 并 且 大 部 分 是 不 可 能 的 。 

当前 软件 随 着 计算 机 速度 和 处 理 能 力 的 提高 在 不 断 增 长 ， 从 这 样 一 个 角度 ， 我 们 可 以 认 
为 ， 软 件 本 身 也 是 提升 计算 机 性 能 的 一 个 动力 。 

不 管 是 什么 样 的 因素 和 动力 ， 计算 机 制造 商都 感觉 到 了 巨大 的 计算 机 性 能 持续 提高 的 压 
力 。 这 也 带 来 了 许多 收获 ， 如 时 钟 频 率 的 提高 、IPC 的 增长 等 ( 见 5.5.1 节 )。 遗 憾 的 是 , 计 
算 机 设计 人 员 已 经 很 难 再 从 这 些 方面 来 提高 计算 机 的 性 能 了 ， 他 们 付出 了 越 来 越 多 的 努力 ， 获 
得 的 性 能 提升 却 越 来 越 少 。 计 算 机 设计 人 员 因 此 转 而 借助 并 行 来 提高 性 能 。 设 计 一 个 相对 简单 
的 处 理 器 并 在 一 个 集成 电路 (IC) 上 放置 16 个 会 比 在 一 个 快 16 倍 的 IC 上 设计 一 个 处 理 器 并 
利用 所 有 的 资源 要 容易 得 多 。 同 时 并 行使 用 两 个 已 有 的 处 理 器 也 比 开 发 一 个 速度 是 现 有 处 理 器 
两 倍 的 处 理 器 容易 得 多 。 

理论 上 ， 更 多 的 处 理 器 或 执行 单元 并 行 运行 能 提高 计算 的 速度 ， 但 这 也 只 有 在 计算 能 够 并 
行 执行 时 才 会 成 立 。 给 定 mm 个 并 行 任务 ， 每 个 任务 需要 7, 秒 执行 ， 一 个 单 核 处 理 器 执行 这 些 
任务 需要 m x7 秒 。 

当 所 拥有 的 处 理 单元 n 比 待 执 行 的 任务 多 ， 即 n>m 时 ， 这 些 任务 就 可 以 在 7 秒 内 执行 完 
毕 ， 则 所 获得 的 加 速 比 为 《mx 7, )A(7T,) =m， 也 称 为 理想 加 速 比 。 当 然 ， 这 个 等 式 并 没有 考 
虑 消息 传递 的 消耗 以 及 操作 系统 执行 并 行 处 理 所 需 要 的 支持 ， 同 时 也 假设 了 这 些 任 务 之 间 没 有 
数据 相关 。 

总 体 而 言 ， 对 于 一 个 串 行 任务 所 占 比例 为 的 程序 ， 完 全 串 行 执行 需要 7, 秒 。 串 行 部 分 的 
执行 时 间 为 1/x7, 秒 ， 而 并 行 部 分 使 用 串 行 执行 的 时 间 为 (1 -了 有 ) x 7 秒 。 假 设 没有 其 他 开销 ， 
则 使 用 mm 个 执行 单元 并 行 执行 消耗 的 总 时 间 降 为 (1 -/) x7T,/m+f/x7T,， 而 加 速 比 等 于 原来 的 
执行 时 间 除 以 并 行 的 执行 时 间 为 : 

加 速 比 =n/1il1+(m-1) x/ 








日 ”在 这 里 ， 速 度 是 以 一 段 简单 代码 的 执行 速率 来 衡量 的 ， 即 在 3. 5. 2 节 中 介绍 的 Linux bogomips 速率 。 
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当 f 为 0 (意味 着 没有 串 行 部 分 ) 时 ,结果 就 与 之 前 的 理想 加 速 比 相同 。 这 个 等 式 即 为 
Amdahl 定律 ， 表 明了 加 速 比 与 处 理 器 个 数 之 间 的 关系 ,并 指出 通过 并 行 计算 可 以 获得 的 潜在 
性 能 提高 。 


5. 8.3 其 他 并 行 处 理 

对 称 多 处 理 (Symmetrical Multi- Processing，SMP) 是 指 有 两 个 或 多 个 相同 的 处 理 单元 连接 
到 一 个 共享 存储 器 上 。 这 种 技术 有 很 多 种 变化 ， 包 括 共享 cache、 分 布 cache (使 用 MESI cache 
一 致 性 协议 ， 人 参见 4.4.7 节 ) 等 。 另 一 种 选择 是 非 对 称 多 处 理 (Asymmetrical Multi- Process- 
ing) ， 这 个 称谓 并 不 常用 ， 但 协 处 理 器 就 属于 这 一 类 。 在 写本 书 时 SMP 比较 常见 的 例子 就 是 有 
4 个 核 的 Intel Core 体系 结构 。 图 5-25 给 出 了 Core 2 duo 的 双核 处 理 器 结构 ， 它 拥有 两 个 同 构 的 
处 理 单元 ， 具 有 明显 的 对 称 性 ， 中 间 为 共享 存储 器 〈L2 cache) 。 
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图 5-25 Intel 双核 体系 结构 内 部 模块 图 。 该 体系 结构 为 一 个 对 称 的 双核 结构 ， 具 有 两 套 对 等 的 处 理 单元 
(包含 完整 的 超标 量 流水 线 、 指 令 处 理 硬件 等 ) ， 共 享 一 个 与 外 部 总 线 相连 的 2 级 cache 


多 核 处 理 器 (multi-core machine) 是 指 在 一 个 集成 电路 (IC) 上 包含 了 两 个 或 更 多 的 处 理 
单元 (通常 是 完整 的 处 理 器 )。 一 些 双核 或 四 核 IC 也 称 为 多 核 ， 但 实际 上 它们 是 在 一 个 IC 上 
包含 了 两 块 分 开 的 硅 片 ( 因而 是 一 个 多 片 模块 ( multichip module，MCM) ) 。 随 着 IC 上 的 处 理 
器 核 越 来 越 多 ， 一 些 处 理 器 被 称 为 众 核 处 理 器 ( many-core machine ) 。 对 于 设计 人 员 来 说 ， 使 
用 FPCA 的 软 核 来 搭建 多 核 和 众 核 处 理 器 是 比较 简单 的 。 

同 构 体系 结构 是 指 那些 处 理 器 里 所 有 的 核 都 是 完全 相同 的 。 这 种 处 理 器 在 许多 方面 都 比较 


宇 








不 同类 型 的 核 ， 允 许 将 专门 用 于 不 同 处 理 的 核 包含 在 一 起 。 
著名 的 异 构 多 核 处 理 器 是 来 自 IBM、Sony 和 Toshiba 的 Cell 处 理 器 。 这 个 处 理 器 装备 在 了 
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多 个 超级 计算 机 和 (据说 是 ) 数 百 万 台 Sony 的 Playstation II 上 ， 这 是 一 个 将 多 个 较为 平凡 的 
处 理 器 能 力 集合 在 一 个 卓越 的 多 核 处 理 器 上 的 典范 。 


Cell (更 准确 的 称谓 是 Cell Broad- 
band Engine Architecture ，Cell 宽带 引擎 体 
系 结 构 ) 的 结构 如 图 5-26 和 图 5-27 所 
示 。 它 包含 了 8 个 相同 的 、 相 对 简单 的 
SIMD 体系 结构 处 理 器 ， 称 为 SPE ( Syn- 
ergistic Processing Element， 协同 处 理 单 
元 )， 它 们 由 一 个 IJBM Power 体系 结构 的 
PPE (了 Power Processing Element ，Power 处 
理 单元 ) 进行 调度 管理 。PPE 与 现成 的 
IBM PowerPC RISC 处 理 器 十 分 相似 。 这 8 
个 SPE 作为 基本 数据 处 理 单元 由 PPE 控 
制 ， 而 PPE 运行 着 一 个 操作 系统 。 

虽然 可 以 作为 计算 机 体系 结构 一 个 
重要 的 代表 , 但 由 于 面积 、 功 耗 、 热 耗 
散 等 原因 ，Cell 处 理 器 本 身 并 不 太 适 合 大 
多 数 租 入 式 应 用 ， 不 过 它 终 将 是 要 影响 
和 诅 和 人 式 领域 的 。 除 去 物理 和 电气 方面 的 
因素 ,针对 异 构 Cell 处 理 器 的 软件 开发 
工具 也 在 阻碍 着 它 的 发 展 。 据 报道 ， 许 
多 运行 在 SPE 上 的 代码 需要 手工 编制 ， 
SPE 和 PPE 处 理 的 划分 和 各 个 SPE 之 间 
处 理 的 划分 都 需要 人 工 操作 。 只 有 等 到 
这 些 工作 可 以 自动 完成 或 有 相应 的 开发 
工具 支持 时 ，Cell 处 理 器 才 可 能 会 成 为 受 
欢迎 的 产品 。 





图 5-26 Cell 宽带 引擎 体系 结构 模块 图 。 它 有 8 个 


SPE、1 个 单元 互联 总 线 (EUB) 以 及 必 
需 的 存储 器 和 LO 接口 ， 再 加 上 IBM 
Power 体 系 结构 的 Power 处 理 单元 (PPE) 























图 5-27 


Power 


处 理 单元 (PPE)|L 


PPE 和 SPE 内 部 结构 ， 显 示 了 本 地 存储 / 
cache 在 设计 中 的 重要 性 














集群 计算 机 ， 特 别 是 Linux Beowulf， 都 包含 了 完整 的 计算 机 ， 每 台 计 算 机 是 独立 的 而 不 是 共 
享 内 存 的 (通常 硬盘 也 是 独立 的 ) 。 集 群 将 会 在 12. 2 节 与 类 似 的 网 格 计算 和 云 计算 一 起 讨论 。 在 
写本 书 的 时 候 ， 世 界 上 多 个 最 快 的 超级 计算 机 2 (都 是 集群 ) 都 采用 了 IBM 的 Cell 处 理 器 。 

普 适 计算 的 概念 是 计算 机 在 我 们 周围 无 处 不 在 ， 这 个 概念 被 “环境 智能 ”一 词 扩 展 ， 指 


的 是 计算 机 以 某 种 方式 协同 工作 (要求 连接 性 与 控制 )， 


目的 是 为 人 们 提供 更 多 服务 。 近 年 


来 ,“ 随 处 计算 ”用 于 描述 科技 发 展 带 来 的 即时 连接 与 全 天 24 小 时 的 可 用 性 。 实 际 上 ， 我 们 大 
多 数 人 身边 都 遍布 计算 机 一 一 很 多 是 微小 的 散 入 式 设 备 一 一 但 是 目前 这 些 设备 没有 协作 的 趋 
势 。 虽 然 它们 由 蓝牙 或 类 似 的 技术 连接 ， 但 这 种 方法 并 不 是 即时 连接 ， 也 远 远 达 不 到 提供 无 颖 
服务 的 要 求 。 然 而 ， 支 撑 环 境 智 能 思想 的 计算 机 和 网 络 在 很 大 程度 上 属于 现代 设备 的 范畴 ， 操 
作 系 统 、 管 理 软件 和 服务 层 的 控制 目前 还 无 法 实现 。 

云 计算 是 用 于 分 布 式 设备 相互 连接 的 一 种 配置 ， 这 些 设 备 协 作 实现 处 理 与 存储 功能 。 云 计 
算 更 加 贴近 生活 ， 通 过 部 分 设备 可 行 性 切换 ， 总 体 的 计算 服务 维持 不 变 。 在 某 些 场景 中 虚拟 化 
科技 用 在 不 同 的 连接 设备 中 ， 使 其 在 云 中 表现 一 致 。 由 于 虚拟 计算 机 实例 可 以 轻易 在 不 同 硬件 


加 ”世界 上 最 快 计算 机 的 最 新 列表 公布 在 www. top500. org 上 ， 每 6 个 月 更 新 一 次 。 
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设备 中 运行 ,集群 的 虚拟 设备 与 控制 接口 (可 能 是 分 布 式 ) 就 形成 了 云 。 这 个 类 比方 式 与 互 
联网 在 网 络 图 表 中 被 比 作 云 相似 。 这 种 架构 类 型 形式 化 时 ， 可 以 称 为 网 格 计算 。 这 是 一 种 有 组 
织 的 集群 形式 ， 在 这 种 集群 中 ， 联 网 的 机 器 可 以 分 布 ， 甚 至 可 能 是 其 他 人 桌 上 的 计算 机 。 网 格 
的 类 比 源 于 电力 网 ， 即 连接 生产 者 与 消费 者 从 而 共享 资源 与 平衡 负荷 。 

云 计算 业务 已 经 非常 流行 运营 云 的 公司 会 以 类 似 CPU 操作 秒 的 方式 出 售 计 算 时 间 。 这 
种 交易 之 所 以 能 产生 ， 是 因为 其 服务 成 本 比 客户 用 自己 的 计算 机 运行 的 成 本 更 低 ， 可 行 性 (如 
运行 时 间 ) 更 优 。 一些 提供 云 服 务 的 设备 非常 大 ， 占 据 比 足球 场 还 大 的 面积 。 不 过 外 观 并 没有 
1.4 节 图 中 的 集群 设备 一 一 巴萨 罗 那 超级 计算 机 那么 美观 。 

嵌入 式 云 的 思想 来 源 于 遍布 四 周 且 即时 连接 的 普 适 计算 。 既 然 我 们 有 很 多 随时 在 线 的 计算 
资源 ， 为 什么 不 加 以 利用 呢 ? 与 其 在 便携 嵌入 式 设 备 〈 如 手机 ) 中 设计 功 耗 大 的 CPU 来 完成 
越 来 越 多 的 复杂 处 理 ， 我 们 可 以 使 用 低 功 耗 相 对 简单 的 移动 CPU， 并 将 其 和 更 强大 的 设备 无 线 
连接 来 完成 繁重 的 工作 。 

这 就 是 目前 用 于 大 多 数 移动 设备 中 语音 识别 的 思想 。 在 过 去 的 几 十 年 间 ， 自 动 语音 识别 
(ASR) 的 性 能 不 断 提 升 ， 近 年 甚至 超过 了 人 类 自己 的 识别 能 力 〈 在 某 个 场景 中 ASR 系统 的 理 
解 能 力 已 经 超过 大 部 分 人 类 ) 。 而 这 需要 大 数据 才 得 以 实现 ， 大 数据 方法 使 用 大 规模 数据 集训 
练 复杂 的 解码 引擎 。 在 某 些 案例 中 ,许多 解码 引擎 并 行 计算 以 提高 性 能 。 这 种 方式 产生 巨大 的 
计算 开销 。 确 切 来 说 ， 在 解决 ASR 问题 时 CPU 功 耗 越 大 ， 使 用 的 数据 越 多 ， 最 终 的 性 能 越 好 。 
然而 ， 移 动 设 备 的 处 理 能 力 有 限 ， 功 耗 也 低 。 如 果 将 ASR 的 处 理 任务 放 在 移动 设备 中 ， 性 能 
会 非常 差 (可 能 只 能 识别 70% 的 语句 ) 。 因 此 Google 与 其 他 公司 倾向 于 使 用 移动 设备 录 下 一 段 
语音 而 不 是 进行 识别 。 这 个 片段 在 设备 中 进行 编码 ， 并 发 送 到 很 远 的 服务 器 群 。 这 些 服务 器 使 
用 强大 的 ASR 算法 来 识别 内 容 ， 然 后 再 将 结果 回 传 到 移动 设备 。 

此 过 程 同 样 适用 于 视频 、 游 戏 、 音 乐 存储 、 文 件 转换 、 光 符 识别 以 及 大 量 其 他 诸如 此 类 的 
移动 设备 应 用 。 在 强大 的 远 端 服务 器 中 进行 计算 ， 再 将 结果 通过 无 线 信道 发 送 给 移动 设备 。 

在 远 端 印 载 复杂 处 理 过 程 就 这 样 得 以 实现 ， 很 大 程度 上 克服 了 便携 式 或 艇 入 式 设备 的 功率 
限制 〈 电 池 技术 比 处 理 器 功率 发 展 缓慢 ) 。 然 而 要 实现 这 样 高 效 可 靠 的 过 程 ， 写 人 时 的 无 线 技 
术 还 需要 改进 。 值 得 注意 的 是 ， 所 有 的 最 优 无 线 链 路 本 来 就 非常 复杂 且 计 算 成 本 高 。 在 某 些 场 
景 中 ， 需 要 计算 的 无 线 链 路 自身 比 印 载 的 计算 量 还 大 。 

移动 多 处 理 技术 如 今 已 经 得 到 很 好 的 应 用 。 当 前 的 移动 设备 包含 一 系列 不 同 大 小 的 CEU: 除 
了 主 〈 可 能 是 多 核 ) 处 理 引 擎 ， 现 代 智 能 手机 还 包含 多 个 独立 CPU 来 分 别处 理 功率 管理 、 全 球 
卫星 定位 追踪 (GPS) 、 音 频 管 理 ， 多 个 GPU 内 核 处 理 显 示 ， 男 一 个 CPU 管理 触 屏 与 触 控 接 口 ， 
甚至 还 有 一 个 CPU 保证 设备 安全 性 (还 有 许多 CPU) 。 就 CPU 自身 来 说 ， 这 些 主要 是 多 核 设 备 并 
且 过 去 属于 同类 ( 即 由 相同 内 核 组 成 的 集群 ， 如 图 5-24 中 的 ARM946 所 示 ) 。 近 年 来 ， 向 部 分 同 
类 设备 转移 带 来 了 功 耗 优 势 ， 一 个 举世 闻名 的 例子 就 是 ARMs big LITTLE 计算 架构 。 

因 不 断 增加 的 设备 ， 人 们 采用 了 big. LITTLE 架构 ， 将 不 止 一 个 快速 处 理 内 核 (big) 与 多 
个 低速 内 核 (LITTLE) 结合 起 来 。 这 种 方案 的 巧妙 之 处 在 于 两 者 都 是 ARM 内 核 ， 都 采用 相同 
的 基本 ARM 架构 ( 见 3.2.7 节 )、 内 存 接 入 方法 、 总 线 接 入 等 。 此 设计 为 两 套 内 核 的 多 核 设备 
(而 不 是 双核 设备 ) 提供 了 便利 ， 其 中 一 半 是 慢 速 内 核 ， 一半 是 快速 内 核 。 例 如 ,一 个 拥有 8 
个 内 核 的 设备 ， 会 有 4 个 快速 内 核 和 4 个 慢 速 内 核 。 

大 型 内 核 〈 如 Cortex-A72) 功能 强大 ， 处 理 速度 非常 快 ， 在 设备 开启 时 全 速 运行 。 由 于 这 
些 内 核 强大 快速 ， 其 功 耗 相对 也 比较 大 ， 因 此 持续 运转 会 加 剧 电池 损耗 。 因 此 ， 一 套 LITTLE 
内 核 (如 Cortex-A53) 在 设备 开启 节 电 模 式 或 执行 后 台 进 程 时 运行 ， 这 取决 于 big. LITTLE 架构 
关于 共享 内 存 (以 及 对 操作 系统 中 处 理 交换 机 的 影响 ) 的 布置 方式 。 该 技术 可 以 支持 多 个 不 





提高 CPU 性 能 163 








同 操作 模式 。 所 有 的 big. LITTLE 设备 可 以 在 全 快 或 全 慢 模 式 下 运行 ， 即 一 套 内 核 运行 ， 另 一 
套 关闭 。 某 些 设备 将 处 理 器 内 核 分 为 快慢 对 ， 每 对 内 核 共享 内 存 并 得 以 在 快 与 慢 操 作 间 切换 。 
例如 ， 对 于 8 核 设 备 来 说 ， 可 能 有 一 个 大 内 核 与 3 个 小 内 核 同 时 运行 ， 用 于 处 理 后 台 进 程 。 这 
就 是 1:3 配置 (设备 还 可 以 支持 0:4、2:2、3:1、4: 0 等 配置 ) 。 新 型 便捷 big. LITTLE 设备 可 以 
支持 所 有 内 核 独 立 开 启 或 关闭 。 对 于 8 核 设 备 (4 大 4 小 ) 来 说 ， 从 “全 开 ” 到 “全 关 ” 的 所 
有 配置 都 能 够 实现 。 


5.9 Tomasulo 算法 


在 结束 本 章 以 前 ， 让 我 们 把 目光 转向 40 多 年 前 颇具 创新 性 的 IBM System/360。 本 书 通 篇 
都 在 强调 计算 机 技术 的 不 断 发 展 ， 历 史上 也 有 很 多 革命 性 的 思想 不 断 出 现 ，Tomasulo 算法 就 是 
其 中 之 一 ， 它 被 应 用 到 了 插入 式 系统 里 (我 们 将 在 5.9.3 节 进 行 讨论 ) 。 

Robert Tomasulo 曾 面临 过 一 个 性 能 瓶颈 ， 他 为 IBM System/360 所 设计 的 浮 点 协 处 理 单元 在 
运行 程序 时 会 因为 指令 相关 而 发 生 停滞 。 因 此 他 设计 了 一 种 智能 的 方法 ， 通 过 有 限 的 乱 序 执行 
来 打通 流水 线 停滞 。 这 种 方法 就 是 著名 的 Tomasulo 算法 ， 尽 管 这 更 像 是 一 种 方法 而 不 是 算法 。 


5. 9. 1 Tomasulo 算法 的 原理 


在 我 们 正式 讨论 Tomasulo 算法 如 何 工 作 之 前 ， 先 来 看 一 看 为 什么 需要 Tomasulo 这 种 类 型 
的 算法 。 这 个 问题 要 回溯 到 5. 2. 4 节 中 曾 讨 论 过 的 数据 相关 性 ， 它 表明 使 用 任何 指令 之 前 ， 指 
令 的 输出 作为 其 输入 都 需要 等 竺 之 前 的 指令 完全 执行 完毕 才能 开始 执行 。 简 单 地 说 ， 一 条 指令 
必须 等 待 它 的 所 有 操作 数 都 可 用 后 才能 开始 执行 。 

我 们 已 经 讨论 过 使 用 一 种 编译 时 补偿 方法 ( 见 5.2.7 节 ) 对 指令 进行 重新 排序 来 解决 数据 相 
关 问 题 ， 重 排 后 的 指令 消除 了 与 其 周围 指令 的 数据 相关 。 另 一 种 解决 数据 相关 的 方法 就 是 乱 序 执 
行 ， 它 不 需要 让 CPU 等 待 存在 数据 相关 的 指令 执行 完毕 ， 而 是 提前 执行 那些 没有 数据 相关 的 指 
令 ， 这 种 CPU 可 以 通过 执行 后 边 的 指令 从 而 保持 CPU 能 够 一 直 正 常 执行 。 由 此 ，CPU 需要 能 够 
取 到 当前 指令 往 后 的 指令 ， 而 这 需要 一 个 强大 的 分 支 预测 执行 部 件 来 支持 ， 和 否则 处 理 器 就 不 能 取 
到 跨越 条 件 分 支 指令 之 后 的 指令 ， 而 且 重 排 的 指令 也 往往 被 限制 在 分 支 指令 间 的 局 部 代码 上 。 

Tomasulo 是 这 样 解决 这 些 问题 的 ， 人 允许 指令 序列 中 的 指令 可 以 带 有 未 知 的 操作 数 发 送出 
去 ， 而 不 需要 等 到 完全 求 出 这 些 操作 数 ， 这 些 未 知 的 操作 数 称 为 虚拟 操作 数 (virtual operand ) 。 
这 些 指令 将 被 送 往 各 自 目标 功能 单元 的 等 候 站 (Reservation Station，RS) ， 直 到 它们 的 操作 数 
完全 确定 后 再 进入 功能 单元 进行 处 理 。 这 意味 着 指令 序列 不 会 被 数据 冒险 所 阻塞 ， 当 然 还 是 存 
在 一 些 冒 险 会 阻塞 指令 发 送 。 

可 以 通过 考察 医疗 系统 的 改进 来 说 明 这 个 方法 。 以 前 病人 去 医院 看 病 都 需要 先 在 一 个 大 房 
间 里 候诊 ， 这 个 过 程 有 可 能 持续 好 几 个 小 时 。 轮 到 自己 看 病 后 ， 医 生 通 常 又 会 让 病人 先 去 做 一 
些 额 外 的 检查 ， 如 血液 检查 等 。 而 做 完 这 些 检 查 后 病人 又 要 继续 在 候诊 室 等 待 ， 直 到 检查 结果 
出 来 后 才能 让 具体 的 专科 医生 给 自己 看 病 。 如 今 ， 这 个 过 程 变 成 所 有 的 病人 都 到 达 医 院 后 ( 指 
令 队 列 ) ， 由 护士 先 把 病人 按照 病 种 分 配 到 不 同 的 专科 诊室 (等候 站 )， 然 后 这 些 病人 在 这 里 
提前 进行 血液 或 尿 液 等 检查 ， 在 检查 结果 出 来 并 且 医 生 空闲 后 进入 诊室 (功能 单元 ) 看 病 。 


加 ARM 在 写 人 时 提升 了 DynamIQ big. LITTLE 的 性 能 ， 超 越 了 基本 big, LITTLE 架构 。 并 且 通 过 适应 性 最 强 的 
big. LITTLE 架构 结合 了 动态 电压 与 频率 调整 。DynamIQ big. LITTLE 除了 人 允许 部 分 内 核 关 闭 同 时 部 分 内 核 开 
启 ， 还 支持 部 分 独立 内 核 按 最 大 速度 的 比例 工作 。 例 如 ， 一 个 八 核 系统 可 以 让 两 个 大 内 核 全 速 工作 ， 一 个 
以 最 大 速度 的 25% 工作， 一 个 关闭 ， 同 时 4 个 小 内 核 都 以 不 同 速度 工作 一 一 随 着 处 理 要 求 的 改变 ， 速 度 分 
配 随时 灵活 可 变 ， 保 证 功率 与 用 户 体验 之 间 达 到 最 佳 平衡 。 





5.9.2 Tomasulo 系统 的 例子 


我 们 将 对 一 个 采用 Tomasulo 方法 的 处 理 需 进行 讨论 。 如 图 5-28 所 示 是 一 个 采用 了 Tomasu- 
lo 控制 的 动态 调度 系统 ， 它 拥有 公共 数据 总 线 。4 个 功能 单元 都 有 各 自 的 等 候 站 (RS)。 这 些 
RS 与 不 同 的 总 线 和 寄存 器 组 〈 一 组 寄存 器 用 于 保存 整数 ， 另 一 个 用 于 保存 浮 点 数 ) 相连 ， 且 
指令 队列 (1Q) 向 它们 发 送 指令 


公共 数据 总 线 (CDB ) 





图 5-28 在 一 个 通用 处 理 器 上 实现 Tomasulo 算法 的 模块 图 。 左 上 角 的 指令 队列 向 4 个 功能 单元 专属 的 等 
候 站 通过 专用 总 线 输送 指令 。 操 作 数 通过 公共 数据 总 线 (CDB) 从 两 组 寄存 器 被 传送 到 功能 单 
元 ， 功 能 单元 的 输出 也 通过 CDB 传送 到 寄存 器 组 上 


首先 ， 让 我 们 来 看 一 看 这 个 系统 是 如 何 工作 的 。 初 始 时 ，IQ 包含 着 一 系列 指令 ， 正 常情 
况 下 按照 顺序 向 各 个 功能 单元 发 送 这 些 指令 。 每 条 指令 中 包含 一 个 操作 码 以 及 一 个 或 多 个 操作 
数 。IQ 将 这 些 指令 按 顺 序 发 送 到 正确 RS 的 空闲 档 里 。 例如 ， 有 一 条 ADD. D 指令 〈 双 精度 加 
法 指令 ) 将 由 IQ 发 送 至 浮 点 运算 单元 的 RS 里 。 当 正确 的 目标 RS 满 时 ，IQ 就 需要 停顿- 些 周 
期 不 发 送 任何 指令 。 

显然 ， 每 个 RS 的 大 小 都 是 设计 这 种 系统 的 一 个 重要 参数 。 理 想 状 况 是 ， 保 持 RS 有 几 个 
空闲 的 槽 ， 如 此 IQ 就 可 以 随时 向 这 些 RS 发 送 指令 。 

每 当 IQ 发 送 一 条 指令 〈 例 如 一 个 操作 数 加 一 个 操作 码 ) ， 都 要 检查 操作 数 之 间 的 相关 性 ， 
即 检 查 这 条 所 发 送 的 指令 的 操作 数 是 否 来 自 之 前 尚未 执行 的 指令 ， 换 句 话 说， 要 检查 有 没有 尚 
未 解决 的 数据 相关 。 如 果 存 在 相关 性 ， 那 么 指令 就 会 被 发 送 至 RS， 同 时 赋予 一 个 “虚拟 ”的 
操作 数 来 蔡 代 尚 未 得 到 的 操作 数 。 如 果 不 存在 相关 性 ,那么 发 送 指令 时 就 赋予 它 一 个 真正 的 
(已 知 的 ) 操作 数 。 

所 有 的 RS 都 是 相互 独立 的 。 只 要 指令 的 操作 数 全 部 已 知 并 且 功能 单元 空闲 ，RS 在 每 个 周 
期 都 可 以 向 功能 单元 发 送 指令 。 

一 般 来 说 ， 每 个 功能 单元 处 理 指令 的 时 间 长 短 各 不 相同 ， 因 此 RS 空闲 率 是 不 同 的 。 如 果 
一 个 RS 内 有 超过 一 条 指令 的 所 有 操作 数 都 是 已 知 的 ， 那 么 最 先进 入 RS 的 指令 将 会 被 先 发 送 。 
公共 数据 总 线 (Common Data Bus，CDB) 用 于 将 结果 写 回 寄存 器 (这 是 一 台 取 数 - 存 数 机 

器 ) ， 但 在 每 个 时 钟 周期 CDB 只 能 写 回 一 个 结果 ， 所 以 如 果 在 一 个 时 钟 周 期 里 有 两 条 指令 同时 
完成 ， 那 么 仍旧 是 最 先 发 送 的 指令 首先 被 放 至 CDB 上 。 
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每 个 RS 都 会 不 停 地 “监听 ”CDB。 任何 存放 了 带 有 虚拟 操作 数 的 指令 的 RS 都 要 查看 所 
写 回 的 寄存 器 是 否 为 那些 指令 所 等 待 的 操作 数 。 一 旦 是 指令 所 等 待 的 操作 数 ，RS 就 会 从 CDB 
上 取出 这 个 操作 数 给 那些 指令 。 这 意味 着 CDB 不 仅 要 携带 结果 值 本 身 及 目标 寄存 器 ,还 要 携 
带 能 够 通知 RS 本 结果 是 否 为 那些 指令 所 等 待 的 操作 数 的 信息 〈 因 为 一 个 等 待 写 回 R3 寄存 器 
的 结果 的 指令 有 可 能 会 “看 到 ”CDB 多 次 将 结果 写 回 R3 一 一 仅 有 在 原始 代码 中 就 在 该 指令 之 
前 且 目 标 寄 存 器 为 R3 的 指令 的 结果 才 是 该 指令 所 要 的 操作 数 ) 。 

IQ 为 每 条 指令 的 每 一 个 操作 数 都 提供 一 个 唯一 的 标签 ， 该 标签 伴随 着 操作 数 通过 RS、 功 能 
单元 ， 最 后 与 该 指令 的 结果 一 起 出 现在 CDB 上 。 我 们 已 经 知道 ， 那 些 依赖 以 前 指令 结果 的 指令 在 
发 送 时 会 带 有 虚拟 操作 数 ， 但 是 这 些 虚拟 操作 数 包 含 两 个 信息 一 一 寄存 器 名 和 标签 值 。 存 在 依赖 
的 指令 “监听 ”CDB， 实际 上 是 在 “监听 ”那些 写 回 正确 寄存 器 且 带 有 正确 标签 的 结果 。 

让 我 们 通过 一 个 例子 说 明 这 个 过 程 。 假 定 存在 一 个 如 图 5-28 所 示 的 Tomasulo 机 器 ， 其 时 
间 参 数 如 下 ; 

取 数 - 存 数 单元 : 5 个 周期 完成 

浮 点 加 法 器 : 2 个 周期 完成 

浮 点 乘法 器 : 2 个 周期 完成 

整数 单元 : 1 个 周期 完成 

等 待 站 长 度 : 1 条 指令 

每 个 周期 发 送 指令 数 : 1 

寄存 器 数 : 32 个 通用 寄存 器 (gpr) +32 个 浮 点 寄存 器 (人) 

在 这 台 机 器 上 执行 以 下 舱 入 式 指令 


il LOAD.D fp2, (gpr7, 20) 

i2 LOAD.D fp3, (gpr8, 23) 

i3 MUL.D fp4, fp3, fp2 

过 ADD.D fp5, fp4, fp3 ; fp5=fp4+fp3 

i5 SAVE.D fp4，(gpr9，23) ;将 fp4 保 存在 地 址 (gpr9+23】) 
i6 ADD gpr5, gpr2, gpr2 

i7 SUB gpr6, gprl, gpr3 


序 执行 的 预约 表 如 表 5-3 所 示 ， 它 展示 了 当 虚 拟 操作 数 确定 时 指令 从 指令 队列 通过 等 
候 站 进入 功能 单元 的 操作 。 最 后 结果 通过 CDB 写 回 。 


表 5-3 这 个 预约 表 给 出 了 一 台 Tomasulo 机 器 执行 一 段 存放 于 IQ 中 的 程序 ， 该 机 器 包含 几 个 等 候 站 
(RS) ,分 别 为 一 个 取 数 - 存 数 单元 (LSU)、 一 个 ALU、 一 个 浮 点 ALU (FALU) 和 一 个 浮 点 
乘法 单元 (FMUL) 发 送 指令 。 完 成 执行 的 指令 的 结果 通过 常规 数据 总 线 (CDB) 被 写 回 寄存 
器 组 。 在 RS 里 等 待 虚拟 操作 数 确定 的 指令 和 在 功能 单元 内 多 周期 执行 的 指令 使 用 灰色 表示 
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注意 指令 序列 计 ~ 这 通过 乱 序 执行 的 顺序 为 : 计 、i6、 订 、 记 、i3、i4 和 i5, 但 最 后 并 没有 
都 出 现在 CDB 上 。 有 趣 的 是 ， 如 果 我 们 通过 手动 对 这 些 指令 进行 重 排 ， 使 得 在 一 个 简单 的 流 
水 线 处 理 器 上 执行 的 时 间 最 小 化 ,那么 有 可 能 获得 相同 的 执行 顺序 。 指 令 i6 和 六 与 其 他 指令 
不 存在 数据 相关 ， 可 以 提前 执行 以 便 把 存在 数据 相关 的 指令 分 开 。 

最 后 一 点 需要 指出 的 是 ,在 这 个 执行 中 最 主要 的 延迟 来 自 存 取 单 元 (lord- store unit， 
LSU) 。 当 然 ， 给 出 的 参数 中 指出 每 次 存 取 需要 5 个 周期 (这 在 现代 处 理 器 中 并 不 夸张 ， 虽然 
使 用 片上 cache 可 以 提高 速度 ) 。 在 给 定 这 种 参数 的 条 件 下 ，LSU 就 成 为 瓶颈 了 。 

一 种 解决 这 种 瓶颈 的 方法 可 以 是 额外 增加 一 个 LSU ( 既 可 以 拥有 自己 的 RS， 也 可 以 与 当 
前 的 LSU 共用 RS) 。 当 然 ， 不 管 有 多 少 个 LSU， 对 取 数 - 存 数 操作 进行 重 排 才 是 在 Tomasulo 机 
器 上 解决 这 种 瓶颈 的 主要 办 法 。 然 而 ， 读 者 也 需要 意识 到 ， 在 访 存 时 也 会 存在 数据 相关 ， 而 
Tomasulo 算法 并 不 能 解决 这 种 问题 。 我 们 通过 考虑 这 样 一 小 段 代 码 来 了 解 这 个 问题 : 虽然 以 下 
所 提 到 的 3 个 地 址 看 起 来 并 不 一 样 ， 但 它们 在 实际 中 也 可 能 是 相同 的 。 


il readfrom (gpr7, 20) 
i2 read from (gpr8, 23) 
i5 writeto (gpr9, 23) 


指令 il 从 地 址 (gpr7 +20) 读数 据 。 如 果 将 gpr7 的 值 设 为 1003， 那 么 这 个 地 址 就 是 1023。 类 似 
地 ， 如 果 gpr8 的 值 为 1000， 那么 记 也 将 从 地 址 1023 读数 据 ， 这 就 引起 了 一 个 读 后 读 (read- after- 
read) 冒险 : 虽然 这 并 不 是 一 个 令 人 困扰 的 问题 ,但 是 如 果 能 提前 发 现 ， 还 是 可 以 优化 掉 的 。 

而 更 多 的 关注 可 能 会 集中 在 此 : 如 果 gpr8 与 gp 只 相等， 那么 记 和 这 就 形成 一 个 WAR 冒 
险 (在 5.2.4 节 有 描述 )。 在 当前 的 代码 段 中 只 有 一 个 LSU， 不 能 将 5 重 排放 置 在 这 之 前 ， 因 
此 在 这 种 情况 下 就 不 会 造成 什么 问题 。 然 而 ， 这 也 要 归功 于 ;5 与 其 他 指令 存在 着 寄存 器 依赖 。 

让 我 们 通过 改变 代码 和 机 器 来 说 明 这 个 问题 。 在 此 ,i5 变 成 了 5s5: SAVE. D fpl, (gpr9， 
23)， 这 样 ， 这 条 指令 就 与 其 余 的 指令 没有 寄存 器 依赖 。 我 们 将 加 入 第 二 个 LSU 及 其 RS， 如 
图 5-29 所 示 ， 并 运行 以 下 代码 : 

i] LOAD.D fp2, (gpr7, 20) 

i2 LOAD.D fp3, (gpr8, 23) 

i3 MUL.D fp4, fp3, fp2 

这 ADD.D fp5, fp4, fp3 ; £p5=fp4+fp3 


55 SAVE.D fpl,，(gpr9，23) ;将 fpi 保 存在 地 址 (gpr9+23 ) 
i6 ADD gpr5, gpr2, gpr2 
i7 SUB gpré6, gpri, gpr3 


公共 数据 总 线 ( CDB ) 


二 
5 
i 


后 
乡 
A 
用 





图 5-29 对 图 5-28 的 基本 Tomasulo 机 器 的 一 个 改进 。 将 单 取 数 - 存 数 单元 改 为 
双 取 数 - 存 数 单元 ， 同 时 对 应 的 等 候 站 也 改 为 两 个 
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表 5-4 给 出 了 更 改 后 的 机 器 运行 这 段 新 代 码 的 预约 表 。 值 得 注意 的 是 ， 所 加 入 的 第 二 个 
LSU 显著 提高 了 程序 执行 的 速度 。 现 在 整个 程序 完成 需要 15 个 周期 而 不 是 原来 的 21 个 周期 
了 ， 并 且 更 加 紧凑 。 


表 5-4 这 是 一 个 与 表 5. 3 类 似 的 Tomasulo 机 器 的 预约 表 ， 但 它 拥 有 两 个 LSU 及 相应 的 等 候 站 ， 所 执 
行 的 程序 被 略微 修改 。 在 CDB、RS 或 是 功能 单元 里 等 待 的 “空间 ”的 指令 ， 被 标 上 * 号 ， 如 
“i6" ”在 第 9 个 周期 中 在 ALU 的 输出 进行 等 待 ， 因 为 指令 i2 的 结果 当前 正 占用 着 CDB 
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加 速 是 好 事情 ， 但 是 让 我 们 先 来 更 细致 地 考察 访 存 。 请 注意 5 在 第 8 个 时 钟 周期 进入 第 
一 个 LSU 并 对 内 存 地 址 (gpr9 +23) 进行 写 操作 。 同 时 ， 记 仍 从 地 址 (gpr8 +23) 读数 据 。 显 
然 ， 当 gpr8 = gp 中 时 ， 读 和 写 操作 的 目的 地 址 是 相同 的 ， 即 记 将 从 这 个 地 址 读数 据 ， 而 同时 
要 对 这 个 地 址 写 数据 ， 那 么 指令 i2 所 要 读 取 的 数据 就 会 被 污染 从 而 造成 错误 。 

造成 这 种 问题 是 由 于 没有 机 制 来 控制 访 存 的 冒险 。 除 了 跟踪 访 存 或 强制 未 确定 的 内 存 读 写 
按 顺序 执行 之 外 ， 没 有 更 简单 的 方法 来 解决 这 种 问题 。 


5.9.3 艇 入 式 系统 中 的 Tomasulo 算法 


正如 之 前 所 说 的 ，Tomasulo 算法 是 为 大 型 机 ， 如 IBM System/360， 特 别 是 91 模型 而 设计 
的 。 我 们 在 第 1 章 的 图 1-5 中 给 出 了 这 个 巨大 机 器 的 照片 。 那 么 为 什么 在 一 本 计算 机 体系 结构 
的 书 中 介绍 这 种 方法 时 又 要 强调 能 入 式 系统 ? 

首先 ， 乱 序 执行 是 不 能 简单 实现 的 ， 而 对 于 那些 用 于 髋 入 式 系统 的 CPU 设计 ， 乱 序 执行 
并 不 是 设计 人 员 太 愿意 考虑 的 。 然 而 Tomasulo 算法 在 提高 性 能 时 仅 需 添加 硬件 (等 候 站 里 的 
额外 寄存 器 ) 。 它 也 不 需要 依赖 其 他 一 些 先 进 的 技术 ， 如 分 支 预测 、 超 标量 流水 线 等 ， 只 需要 
相对 简单 的 处 理 器 设计 就 能 实现 乱 序 执行 。 

其 次 ，Tomasulo 算法 可 以 将 指令 执行 分 布 在 整个 系统 中 。 在 指令 发 送 单元 中 并 没有 实际 的 
瓶颈 ， 它 也 并 不 真正 受制 于 时 钟 速度 (实际 上 ，Tomasulo 算法 很 容易 将 处 理 器 扩展 为 多 功能 单 
元 ， 只 需 对 结构 进行 很 小 的 改变 ) 。 系 统 分 布 的 本 质 很 适合 FFGA。Tomasulo 算法 中 最 主要 的 瓶 
颈 来 自 CDB， 它 必须 延伸 至 每 一 个 等 候 站 和 每 一 个 寄存 器 组 中 的 每 一 个 寄存 器 。 然 而 ， 这 种 类 
型 的 全 局 总 线 在 FPGA 中 早已 经 布 好 ， 对 其 进行 扩展 比 设 计 “ 较 短 的 ”并 行 总 线 还 要 方便 。 

最 后 ， 我 们 在 5. 9. 2 节 的 例子 中 也 提 到 了 额外 的 功能 单元 是 如 何 提高 性 能 的 〈 在 这 个 例子 
中 是 第 二 个 LSU) ， 虽 然 我 们 也 提 到 这 种 额外 的 LSU 还 导致 了 特定 的 内 存 地 址 相关 问题 。 在 髓 
和 人 式 系统 中 ， 更 倾向 于 在 编译 时 固定 变量 和 矩阵 的 地 址 ， 并 且 不 需要 为 其 指定 相关 的 基 址 寄存 
器 ， 如 此 就 解决 了 额外 LSU 带 来 的 问题 。 更 重要 的 是 ， 在 嵌入 式 领域 一 般 都 可 以 预知 在 系统 上 
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将 会 运行 什么 软件 ， 如 此 就 可 以 预先 为 这 种 软件 选择 合适 的 功能 单元 (以 及 有 多 少 个 功能 单 


元 )s 


5. 10 超 长 指令 架构 集 
超 长 指令 架构 集 (VLIW) 旨 在 采用 尽 可 能 多 的 指令 集 并 行 (ILP) 来 加 速 CPU 的 执行 。 关 键 在 
于 其 将 大 部 分 高 效 指令 排序 与 冒险 (相关 ) 检查 的 责任 从 处 理 器 转移 到 编译 器 来 实现 这 一 点 


5. 10.1 什么 是 VLIW 


传统 的 RISC 架构 如 图 5-30 (顶部 ) 所 示 ， 试 图 在 每 个 周期 内 取 单 一 指令 并 执行 。 我 们 在 
3.2.6 节 已 经 了 解 到 RISC 的 基本 原理 是 每 秒 控制 很 多 单一 指令 。 指 令 大 小 相同 ,约束 于 加 
载 -存储 架构 ， 并 通常 在 一 个 周期 内 执行 中 ， 这 种 架构 带 来 的 简化 性 、 相 似 性 和 一 致 性 意味 着 
体系 架构 保持 规律 性 、 低 复杂 性 与 高 效 性 。 虽 然 这 种 方式 很 好 ， 也 会 导致 内 部 功能 单元 大 部 分 
时 间 处 于 空闲 状态 ， 因 为 每 个 指令 通常 只 激活 一 个 功能 单元 ， 每 个 周期 内 只 有 一 个 功能 单元 是 
有 效 的 。 这 种 方法 的 效率 较 低 ， 最 好 的 情况 是 所 有 的 功能 单元 一 直 全 速 运行 。 


























图 5-30 前 文 提 到 的 多 个 架构 的 单 周期 执行 情况 ， 有 单一 RISC 
处 理 器 (上 ) 、 超 标量 处 理 器 〈 中 ) 与 并 行内 核 (下 ) 


而 超标 量 处 理 器 (如 图 5-30 中 间 的 图 所 示 ) 每 个 周期 取 多 个 指令 ， 并 且 人 允许 外 部 功能 单 
元 在 条 件 允 许 时 保持 一 定 独立 性 。 例 如 外 部 ALU 与 MUL 在 处 理 两 个 同时 产生 的 不 同 指令 时 可 
以 同时 运行 。 如 5.4 节 中 所 阐述 的 ， 只 有 当 相 邻 指令 的 操作 数 是 独立 的 ， 且 指令 需要 不 同 的 功 
能 单元 时 ， 这 种 方法 才 有 效 。 当 两 个 指令 有 依赖 关系 时 ， 独 立 的 指令 必须 等 待 另 个 指令 执行 
完毕 〈5. 2. 4 节 描述 过 这 种 数据 相关 冒险 ) 。 类 似 地 ， 当 两 个 指令 都 需要 同一 个 功能 单元 ， 一 
个 指令 必须 等 待 另 一 个 先 执行 ( 另 一 种 冒险 在 第 5 章 介绍 过 ) 。 超 标量 处 理 器 的 关键 特点 是 相 
关 性 (计算 出 一 条 指令 何 时 依赖 于 前 一 条 ， 或 两 条 指令 何 时 需要 访问 同一 功能 单元 ) 在 运行 
时 被 确定 ， 这 是 取 指 单元 的 工作 。 这 样 的 相关 性 明显 减少 了 总 体 执行 速度 ， 甚 至 检查 相关 性 的 
进程 带 来 了 复杂 度 与 性 能 限制 。 








找到 一 种 保证 相 邻 指令 消除 相关 性 的 方法 已 经 是 大 势 所 趋 。 

并 行 架构 〈 图 5-30 底部 ) 仅仅 复制 了 单个 生产 线 CPU 的 整个 生产 线 、 取 指 单元 与 内 存 
段 ， 并 且 让 其 独立 运行 。 现 实 世 界 中 并 行 十 分 常见 ， 并 且 在 原始 性 能 方面 非常 有 效 〈 人 参见 
5. 8.2 节 )， 但 是 同时 也 复制 了 每 个 单一 流水 线 的 缺点 。 

相 比 之 下 ，VLIW 旨 在 减少 编译 的 低 效 工作 。 提 升 性 能 的 原理 同样 是 并 行 执行 ,不同 的 是 
这 里 的 并 行 是 指令 级 并 行 。 不 同 于 执行 两 个 (或 更 多 ) 指令 ，VLIW 中 每 个 指令 较 长 ， 可 能 包 
含 大 量 并 行 的 子 指令 。 加 速 过 程 的 原理 与 并 行 传输 优 于 串 行 总 线 相同 ， 在 单一 时 钟 周期 内 传送 
多 个 相关 位 ， 而 成 本 就 是 较 高 的 指令 带宽 与 额外 的 硬件 资源 。 


5. 10.2 VLIW 的 优势 


处 理 器 生产 商 连 续 几 十 年 致力 于 提高 时 钟 速度 ,也 取得 了 不 菲 的 成 果 。 然 而 随 着 研究 接近 
了 物理 极限 ，CPU 内 核 速 度 的 增长 也 已 经 放 缓 。VLIW 类 似 于 并 行 处 理 ， 保 证 每 个 时 钟 周期 的 
执行 操作 持续 增长 ， 提 高 了 总 体 性 能 。VLIW 原理 如 图 5-31 所 示 。 由 于 操作 (整合 为 单一 指 
令 ) 的 准确 排序 是 由 编译 器 来 处 理 ， 运 行 时 间 的 相关 性 就 简单 多 了 (仅仅 由 条 件 限制 )， 从 而 
大 幅 提 升 了 效率 。 在 5. 10. 3 节 中 将 探讨 这 个 做 法 的 缺陷 ,但 此 处 先 概括 VLIW 的 优势 。 








图 5-31 不 同 于 图 5-30 所 示 的 传统 架构 ， 基 于 对 相关 性 的 感知 与 CPU 资源 ， 
VLIW 编译 器 尽 可 能 多 地 将 子 指令 整合 成 一 个 指令 字 

VLIW 的 并 行 操作 并 不 是 新 的 思想 ， 这 个 概念 萌芽 于 20 世纪 80 年 代 末 期 ， 德 州 仪器 公司 
开发 了 基于 多 媒体 的 DSP 处 理 器 ， 并 推动 了 大 批 如 TIL、 飞 利 浦 以 及 三 葵 (最 开始 开发 V30 处 
理 器 ) 等 公司 的 高 速 处 理 器 的 发 展 。 

VLIW 一 直 没 有 成 为 主流 ,但 是 由 于 它 打破 了 处 理 器 性 能 与 时 钟 速度 矛盾 的 限制 ， 随 着 时 
间 的 推移 ， 该 技术 会 越发 普及 。 不 同 于 一 般 的 计算 ，VLIW 在 媒体 处 理 领 域 开 发 了 市 场 ， 尤 其 
是 音频 与 视频 的 流 处 理 ， 而 这 些 内 容 随 着 处 理 系 统 的 发 展 也 持续 增长 。 

VLIW 架构 有 时 也 称 为 EPIC 〈 显 式 并 行 指令 运算 ) ， 并 且 被 Intel 用 于 开发 基于 IA-64 的 处 
理 器 ， 这 些 处 理 器 是 高 性 能 服务 器 的 核心 ， 侧 面 反 映 出 该 技术 在 高 数据 吞吐 量 应 用 中 的 优势 。 

VLIW 也 可 以 看 作 RISC 理论 向 并 行 维度 的 延伸 。 它 继承 了 RISC 的 个 体 子 指令 常规 简单 的 
特点 ， 并 且 在 一 个 周期 内 执行 。 独 立 的 RISC 类 子 指 令 被 编译 器 整合 为 长 的 指令 字 后 并 行 处 理 ， 
主要 是 由 于 采用 了 以 下 结构 : 

e。 独立 的 CPU 功能 单元 (如 ADSP2181 ) 。 

e 多 个 功能 单元 的 辅助 (很 多 DSP 以 及 后 来 的 Intel 奔腾 处 理 器 ) 。 

。 形成 流水 线 的 功能 单元 。 
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VLIW 处 理 器 中 用 于 多 媒体 任务 的 编译 器 的 输出 实例 如 下 : 











| | ALUI1 ALU2 AlU3 | FPU1 负载 /存储 
| ”指令 1 | ADD ADD ADD | FMUL NOP 
| ”指令 2 | ADD | NOP NOP | FMUL STORE 








NOP NOP 


超标 量 处 理 器 的 方式 与 之 类 似 ， 不 同 的 是 会 发 出 8 个 顺序 指令 (忽略 NOP)。 这 些 指 令 并 
行 的 程度 取决 于 硬件 与 系统 执行 时 的 具体 情况 。 

VLIW 指令 长 度 一 般 为 1024 位 ， 可 直接 控制 多 个 硬件 单元 , 如 16 个 ALU, 4 个 FPU, 4 个 
分 支 单元 。 


5. 10.3 VLIW 的 瓶颈 


之 前 的 章节 中 已 经 提 到 过 ，VLIW 的 硬件 没有 不 同 寻常 之 处 ， 比 起 超标 量 处 理 器 反而 更 加 
精简 ， 但 是 在 编译 器 中 的 复杂 度 大 幅 增加 。 
要 提升 VLIW 处 理 器 编译 的 效率 ， 需 要 考虑 分 立 的 数据 流 一 一 要 提高 指令 吞吐 量 ， 需 重新 
对 用 户 程序 指令 排序 ， 并 且 需 要 考量 后 续 指 令 与 之 前 指令 输出 的 相关 性 。 换 名 话说， 编译 器 万 
其 要 避免 流水 线 冒 险 〈 在 5. 2 节 提 到 过 ) 。 
VLIW 代码 的 其 他 潜在 风险 如 下 : 
。 代码 密度 较 差 一 一 有 时 要 让 软件 完全 并 行 是 不 现实 的 ， 在 这 种 情况 下 VLIW 代码 在 指 
令 字 外 包含 太 多 NOP“ 填 料 ”。 
要 求 复杂 编译 器 一 一 单纯 是 将 硬件 瓶颈 转换 为 软件 瓶颈 的 问题 。 
高 带宽 内 存 需求 一 一 通常 VLIW 处 理 器 比 其 他 处 理 器 ( 如 超标 量 ) 需要 更 多 指令 带宽 ， 
这 是 由 不 断 产 生 的 额外 NOP 导致 的 。 常 规 的 解决 方案 是 让 指令 带宽 为 64 位 、128 位 或 
256 位 。 这 通常 意味 着 需要 更 多 的 存储 器 片 ， 用 来 路 由 总 线 的 PCB 空间 以 及 处 理 器 电 
路 引 脚 。 
。 很 难 使 用 汇编 语言 一 一 使 用 高 级 语言 几乎 是 VLIW 处 理 器 的 先决 条 件 。 
编译 器 的 复杂 度 问 题 是 VLIW 没有 普遍 用 于 PC 架构 系统 (需要 代码 兼容 性 ) 的 原因 。 如 
果 VLIW 被 采用 ， 编 译 器 会 被 更 智能 的 版 本 替代 一 一 目标 代码 会 变化 ， 现 存 的 低级 工具 也 要 提 
升 。 相 比 之 下 ， 超 标量 技术 完全 兼容 旧 代码 。 虽 然 其 要 求 更 复杂 的 指令 控制 硬件 ， 但 是 对 编译 
器 要 求 较 低 。 
尽管 如 此 ， 诸 如 三 蓉 和 飞利浦 等 公司 还 是 设计 出 完全 没有 遗留 代码 问题 的 新 架构 ， 成 功 采 
用 了 VLIW。 


5. 10.4 与 超标 量 处 理 器 的 比较 


思考 这 样 一 个 问题 ， 既 然 VLIW 与 超标 量 架构 在 处 理 硬 件 中 都 包含 多 个 功能 单元 与 并 行 操 
作 ， 那 么 它们 有 什么 不 同 呢 ?最 重要 的 区 别 是 超标 量 体 系 的 取 指 单元 发 布 指令 的 速度 一 定 要 比 
独立 执行 单元 处 理 指 令 的 速度 快 ， 指 令 可 能 会 等 待 处 理 。 这 是 由 于 超标 量 处 理 器 在 运行 时 间 调 
度 每 个 指令 与 处 理 它们 的 并 行 执行 单元 。 相 比 之 下 VLIW 处 理 器 依靠 编译 器 进行 调度 。 是 编译 
器 在 时 刻 指挥 每 个 执行 单元 的 操作 、 数 据 读 取 与 写 人 地 址 。 这 类 复杂 的 指令 排列 与 调度 在 编译 
时 间 而 非 运行 时 间 完 成 ， 因 此 不 像 超标 量 系统 那样 需要 一 个 规模 庞大 、 结 构 复 杂 的 CPU 控制 
单元 。 在 VLIW 中 ， 并行 指令 以 一 个 固定 的 速率 被 发 出 与 执行 。 处理 器 的 指令 处 理 影响 也 更 简 
单 ， 因 此 可 能 工作 速度 更 快 。 


提高 CPU 性 能 171 








5.11 小 结 


前 面 几 章 大 多 关注 的 是 计算 的 基础 、 计 算 机 CPU 内 的 功能 单元 以 及 这 些 设备 的 操作 ， 而 


本 章 开始 讨论 这 些 设 备 的 性 能 一 一 主要 原因 是 性 能 已 经 成 为 当前 计算 机 发 展 的 主要 动力 。 


线 、 


支 预 


外 ) 


我 们 看 到 了 几 种 类 型 的 加 速 手 段 ， 从 传统 的 提高 时 钟 频率 ， 到 现在 的 已 经 很 成 熟 的 流水 
CISC 与 RISC、 超 标量 及 其 他 硬件 加 速 器 〈 如 零 开 销 循环 和 专 寻 地 址 硬件 ) 。 

本 章 的 重点 是 流水 线 ， 即 由 冒险 和 分 支 引 起 的 性 能 下 降 问 题 ， 以 及 如 何 使 用 延迟 分 支 和 分 
测 来 解决 这 种 问题 。 

至 此 ， 我 们 已 经 对 CPU 的 内 部 结构 有 所 了 解 (除了 将 在 第 12 章 讨论 的 一 些 更 隐秘 的 方法 


， 接 下 来 ,我们 将 注意 力 转 向 如 何 与 CPU 进行 通信 ， 即 向 系统 输入 或 从 系统 输出 信息 。 


思考 题 


5 


5.2 
5.3 


5.4 


人 5S 


5.6 


SS 
5.8 


在 一 些 流水 线 处 理 器 上 ， 条 件 分 支 有 可 能 引起 流水 线 阻塞 或 浪费 周期 。 以 下 的 代码 段 会 阻塞 一 个 三 
级 流水 线 ， 为 什么 ? 

MOV RO,R3 7RO=R3 

ORR R4,R3,R5 7R4=R3 OR R5 

AND R7,R6,R5 7R6=R4 AND R5 

RDDS R0,R1,R2 ;R0=R1+R2， 并 设置 条 件 标志 位 

BGT loop ; 当 结 果 大 于 0 时 分 支 

注意 : 后 面 带 有 “S” 的 指令 意味 着 指令 的 执行 结果 将 会 对 条 件 产生 影响 ， 而 不 带 “S” 的 指令 执行 结果 不 会 对 
条 件 代码 产生 影响 。 同 时 假设 每 条 指令 都 在 一 个 周期 内 完成 。 

对 问题 5. 1 的 代码 进行 重 排 以 避免 阻塞 的 发 生 。 

如 果 ARM 支持 延迟 分 支 ， 那么 可 以 用 BGTD 来 代替 上 面 代码 里 的 BGT。 使 用 BGTD 重 写 问题 5. 1 
里 的 代码 。 

提示 : 只 需 改动 一 条 指令 。 

在 一 个 8 位 RISC 处 理 器 上 ， 执 行 下 列 ARM 指令 ,初始 条 件 为 RO = 0x0 ，R1 = 0xl ，R2 = 0xff， 
确定 每 条 指令 完成 后 的 4 个 标志 位 的 状态 。 假 设 指定 的 指令 依次 执行 : 


指令 
MOVS R3, #0x7f 





















ADDS R4, R3, R1 
ANDS R5, R2, RO 


MOVS R5, R4, R4 | | 
SUBS R5, R4, R1 


ORR R5, R4, R2 














指出 以 下 包含 延迟 条 件 分 支 的 ARM 汇编 指令 中 的 4 种 冒险 : 


il ADD R1, R2, R3 
i2 NOTS R1, R2 

i3 BEQD loop 

i14 SUBS R4, R3, R2 
i5 AND R5, R4, R1 
i6 NOT R1, R2 


分 支 指令 往往 因为 数据 相关 、 指 令 排序 以 及 硬件 能 力 而 引起 流水 线 阻 塞 。 延 迟 分 支 可 以 避免 这 种 阻 
塞 。 请 说 出 另外 两 种 用 于 提高 分 支 性 能 的 方法 。 

说 出 三 种 减少 或 移 除数 据 冒 险 带 来 的 影响 的 方法 。 

画 出 一 个 能 够 实现 任何 数 与 2 或 10 相 乘 的 硬件 框图 ， 使 用 数据 转发 实现 反馈 路 径 。 要 求 如 下 : 
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。 最 多 用 两 个 单位 移 位 器 。 

。 最 多 用 两 个 全 加 咒 。 

忽略 所 有 的 控制 逻辑 和 存储 寄存 器 。 

将 问题 5. 8 实现 的 乘法 器 流水 线 化 ， 使 用 一 个 单位 加 法 器 和 一 个 单位 移 位 器 ， 同 样 忽略 所 有 的 控制 
逻辑 和 存储 寄存 器 。 

画 出 以 上 三 级 流水 乘法 器 的 预约 表 。 

指出 在 CPU 及 其 协 处 理 器 之 间 传 送 数据 的 主要 机 制 ， 并 指出 这 与 同 构 双核 处 理 器 有 什么 不 同 。 
列 出 5 条 RISC 处 理 器 区 别 于 CISC 处 理 器 的 典型 特性 。 

在 一 个 纯 RISC 处 理 器 上 每 周期 执行 指令 数 (IPC) 的 范围 是 多 少 ? 它 与 一 个 理想 的 能 够 同时 发 送 
3 条 指令 的 超标 量 处 理 器 有 什么 区 别 ? 

一 个 数字 信号 处 理 器 (DSP) 实现 了 简单 的 零 开销 循环 硬件 ， 这 个 硬件 带 有 一 个 循环 计数 器 、 一 
个 起 始 地 址 寄存 器 和 一 个 终点 地 址 寄存 器 。 该 硬件 会 检测 程序 计数 器 (PC) 在 什么 时 候 与 终点 地 
址 寄存 器 相等 ， 如 果 循 环 计数 器 非 零 则 会 重 设 PC 为 起 始 地 址 寄存 器 的 值 。 指 出 以 下 几 种 C 代码 
中 哪 种 适合 以 上 硬件 执行 。 


a. for (loop = 0; loop <99; loop++){ 
< 有 大 量 计算 > 
} 


b. LIoop=99; 
dof{ 
< 有 大 量 计算 > 
} while (loop-- >0) 


c. while(x + y != 23){ 
< 有 大 量 计 算 > 
} 


假设 一 个 程序 中 包含 1224 个 任务 (其 中 200 个 需要 串 行 执行 ， 而 1024 个 能 够 并 行 执行 )， 在 一 个 
理想 的 16 路 同 构 并 行 机 器 上 执行 该 程序 ， 每 个 任务 需要 2ms 的 CPU 时 间 来 执行 。 请 计算 并 行 执 
行 的 加 速 比 。 

参考 框 5. 1 的 流水 线 加 速 比 和 效率 的 计算 。 如 果 某 CPU 流水 线 设计 具有 68% 的 效率 和 3. 4 的 加 速 
比 ， 请 确定 该 流水 线 的 级 数 。 

为 了 对 一 个 数字 音频 进行 延 时 ， 处 理 器 需要 持续 读 取 音频 采样 ， 经 过 延 时 后 再 在 某 个 时 刻 输出 它 
们 。 对 于 一 个 采样 率 为 8kHz 的 16 位 音频 ， 延 时 1008ms 需要 多 少 个 采样 ? 在 一 个 采用 循环 缓冲 的 
ADSP2181 上 实现 这 个 延 时 ,使 用 以 下 指令 编写 伪 代 码 。 假 设 开 始 时 缓冲 中 为 空 。 


<reg>=IO(audioport) 将 数据 读 入 寄存 器 
IO(audioport)=<reg> 读 出 寄存 器 里 的 数据 


<reg>=DM (I0,MO) 从 内 存 读 出 数据 ， 地 址 由 指针 I0 指 出 ， 完 成 后 指针 增加 M0 

DM (I0,M1)=<reg> 将 寄存 器 里 的 数据 存 入 内 存 ， 地 址 由 指针 I0 指 出 ， 完 成 后 指针 增加 M1 
I0=buffer start 将 指针 I0 设 置 为 内 存 中 缓冲 的 起 始 位 置 

LO=buffer end 设置 循环 缓冲 的 上 限 ( 当 I0=L0 时 ， 重 置 T0 ) 

MO=x 设置 地 址 改变 器 MO 的 值 为 x 

M1=x 设置 地 址 改变 器 M1 的 值 为 x 

B loop 分 支 至 标签 为 loop 的 程序 段 上 


<reg> 可 以 为 AX0、AX1、AY0 和 AY1 里 的 任意 一 个 。 
指出 执行 以 下 ARM 条 件 指令 前 哪些 条 件 标志 位 需要 设置 : 





























指 令 含 义 [NT z c [Vv 
BEQ loop 如 果 等 于 0 则 分 支 | 
ADDLT RA, R9, Ri 如 果 小 于 0 则 执行 加 法 | 
ANDGE R1, R8, RO 如 果 大 于 等 于 0 则 执行 与 | 
BNE temp 如 果 不 等 于 0 则 分 支 
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简单 阐述 在 什么 情况 下 需要 使 用 影子 寄存 器 。 如 果 处 理 器 不 支持 影子 寄存 器 ， 那 么 程序 员 需 要 采 
取 什么 方法 ? 
在 一 个 拥有 12 位 全 局 分 支 预测 器 的 处 理 器 上 跟踪 以 下 指令 的 执行 ， 预 测 器 初始 时 为 “DT”: 


il MOV R8, #6 ; 将 立即 数 6 加 载 入 寄存 器 R8 
这 MOV R5, #2 ; 将 立即 数 2 加 载 入 寄存 器 R5 
i3 lpl: SUBS R8, R8, R5 ;R8=R8-R5 

i4 BLE exit ;如 果 结 果 小 于 等 于 0 则 分 支 


i5 BGT lpl ;如果 结 果 大 于 0 则 分 支 
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前 面 5 章 描述 了 微 处 理 器 发 展 过 程 中 那些 相对 稳定 、 没 有 什么 革命 性 变化 的 方面 ， 包 括 设 
计 具 有 高 速 处 理 能 力 器 件 的 驱动 器 、RISC 的 概念 ， 以 及 体系 结构 和 指令 集 对 于 高 性 能 程序 设 
计 的 支持 等 。 

从 本 章 开始 我 们 结束 基本 CPU 知识 的 学 习 ， 来 了 解 一 下 核心 逻辑 与 外 部 世界 的 相互 作用 ， 
外 部 世界 是 指 接 口 、 总 线 以 及 一 些 舰 入 式 系统 中 与 此 相关 的 特有 概念 一 一 接近 实时 处 理 和 实时 
互 操作 等 。 


6. 1 总 线 接口 

在 当今 市 场 上 完全 可 以 买 到 一 个 片上 计算 机 ， 这 种 计算 机 拥有 一 块 集成 了 CPU 、 计 算 机 外 
部 逻辑 甚至 内 存 的 集成 电路 芯片 。 

这 块 芯片 直接 提供 了 一 个 计算 机 系统 所 要 求 的 所 有 内 部 和 外 部 总 线 。 这 种 芯片 还 提供 了 一 
个 计算 机 要 求 的 所 有 外 部 与 内 部 总 线 。 曾 经 作为 外 部 片 下 设备 实现 的 计算 机 部 件 现在 可 以 在 片 
上 和 集成。 这 意味 着 连接 功能 单元 与 CPU 的 总 线 不 再 肉眼 可 见 ， 尽 管 听 起 来 很 神奇 ， 但 是 仍然 
实现 了 。 对 于 所 有 的 计算 机 来 说 ， 总 线 连接 CPU 与 外 设 处 理 器 。 而 在 没有 集成 之 前 ， 在 CPU 
和 外 设 之 间 只 有 内 部 总 线 一 一 现在 这 部 分 处 于 芯片 内 部 而 不 是 芯片 外 部 。 这 种 器 件 称 为 片上 系 
统 或 SoC 处 理 器 。 

以 如 图 6-1 所 示 的 20 世纪 90 年 代 以 来 标准 个 人 计算 机 体系 结构 为 例 ， 它 包括 一 个 CPU 以 
及 围绕 着 它 的 各 个 器 件 。 以 往 这 个 体系 结构 在 一 个 母 板 上 实现 ， 包 括 约 20 个 芯片 ， 而 近 几 年 ， 
它 可 以 在 一 个 片上 系统 器 件 上 实现 。 系 统 同 样 采用 标准 接口 ， 只 是 全 部 在 一 块 集成 电路 中 实 

见 图 6-1 中 的 阴影 区 域 。 


Py mu ra 主 存储 器 
一 于 -一 十- 2 ~ 





图 6-1 20 世纪 90 年 代 后 期 标准 个 人 计算 机 体系 结构 框图 


在 基于 ARM 的 系统 中 一 般 采 用 两 种 标准 总 线 一 一 AHB(ARM Host Bus) 和 AMBA( Advanced 
Microcontroller Bus Architecture ) 。 在 许多 厂家 出 品 的 基于 ARM 的 集成 电路 中 可 以 看 到 这 两 种 总 
线 ， 同 时 ， 在 诸如 ARM 集成 平台 这 类 母 板 上 也 可 以 看 到 以 离散 器 件 实现 这 两 种 总 线 的 方案 。 
ARM 总 线 已 成 为 一 种 业界 标准 ， 用 于 一 些 非 ARM 处 理 器 接口 ， 例 如 基于 SPARC 的 ERC32 处 
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理 器 〈 用 于 卫星 和 空间 系统 ) 。 这 些 外 部 或 内 部 总 线 标准 使 外 设 制造 商 〈 即 独立 集成 电路 厂商 
或 内 部 逻辑 部 件 厂 商 ) 能 够 生产 出 在 系统 中 协同 工作 的 标准 单元 。 

虽然 读者 很 可 能 已 经 了 解 并 行 总 线 的 概念 ， 在 此 我 们 还 是 要 简单 回顾 一 下 。 并 行 总 线 最 重 
要 的 作用 是 能 够 支持 多 个 器 件 共享 同一 物理 资源 一 一 数据 总 线 一 一 以 传送 输入 或 输出 信息 。 通 
常 CPU 作为 主 器 件 ， 负 责 以 控制 信号 实现 对 并 行 总 线 的 控制 。 当 两 个 CPU 共享 总 线 时 就 必须 
有 仲裁 ， 这 个 角色 或 者 由 其 中 的 一 个 CPU 担当 ， 或 者 采用 一 个 独立 的 外 部 总 线 仲裁 器 。 

主 咒 件 通过 总 线 控 制 信号 告诉 其 他 器 件 何 时 从 总 线 读 、 何 时 向 总 线 写 。 总 线 兼容 的 器 件 必 
须 确 保 不 向 总 线 写 数据 时 一 定 不 去 驱动 总 线 ， 即 其 输出 总 线 处 于 高 阻 状态 。 


6. 1.1 总 线 控制 信号 


典型 的 总 线 控制 信号 如 下 所 示 ， 其 中 小 写字 母 “mn” 表示 该 信号 低 电 平 有 效 。 
。 nOE 和 nRD 一 一 输出 启用 / 读 启用 ， 表 示 主 控制 器 允许 某 个 器 件 向 总 线 写 数据 。 存 储 地 
址 或 片 选 信号 决定 了 被 选中 的 器 件 。 
。 nWE 和 nWR 一 一 写 启 用 ， 表 示 主 控制 器 本 身 将 数据 输出 到 总 线 上 ， 而 另外 的 一 个 或 多 
个 器 件 读 取 该 数据 。 读 取 数 据 的 具体 器 件 通 过 nOE/nRD 指定 。 
。 RD/nWR 一 一 读 / 不 写 。 当 该 控制 线 为 高 时 ， 若 任何 有 效 地 址 或 片 选 信 号 出 现 ， 则 完成 
一 个 读 操 作 ; 当 该 控制 线 为 低 时 ， 若 任何 有 效 地 址 或 片 选 信号 出 现 ， 则 完成 一 个 写 
操作 。 
。 nCS 和 nCE 一 一 片 选 / 片 启用 信和 号， 每 个 器 件 有 一 个 该 信号 ， 当 信号 有 效 时 表示 相应 器 
件 与 总 线 “ 通 话 "。 以 前 ， 由 分 立 的 地 址 译 码 芯片 产生 片 选 / 片 启用 信号 ， 而 多 数 现 代 
嵌入 式 处 理 器 本 身 就 会 产生 该 信号 。 
在 使 用 DIP 封装 技术 的 年 代 ， 设 计 者 必须 最 小 化 集成 电路 引 脚 的 数量 ， 因 此 导致 了 一 些 奇 
特 的 复 用 、 混 合并 行 总 线 设计 ， 其 中 包含 了 一 些 非 常规 的 总 线 控制 信号 。 而 上 面 给 出 的 信号 是 
当代 嵌入 式 处 理 器 和 外 设 中 最 常见 的 形式 。 
其 他 信号 还 包括 nWAIT 线 等 ， 慢 速 外 设 使 用 该 信号 通知 正在 存 取 它们 的 CPU 在 该 慢 速 设 
备 准备 好 之 前 不 要 利用 总 线 做 其 他 事情 。 与 此 相配 合 的 信号 还 包括 总 线 准 备 好 、 总 线 请 求 、 总 
线 许可 等 ， 而 后 两 条 控制 线 用 来 实现 直接 存储 器 存 取 (DMA)。 


6. 1.2 直接 存储 器 存 取 


直接 存储 器 存 取 允许 共享 总 线 的 两 个 器 件 彼 此 通信 而 无 须 打 扰 控 制 CPU。 如 果 没 有 DMA， 
CPU 要 用 一 条 或 几 条 指令 先 从 源 外 设 上 读 取 一 个 数据 ， 然 后 再 将 数据 写 到 目的 外 设 上 。 对 取 
数 - 存 数 体系 结构 机 器 而 言 ， 以 上 操作 还 会 导致 数据 传输 过 程 中 占用 内 部 寄存 器 。 

DMA 只 需要 少量 的 CPU 介入 以 启动 传输 过 程 ， 之 后 的 传输 操作 基本 上 独立 于 CPU 进行 。 
源 外 设 通过 外 部 总 线 将 数据 送 到 目的 外 设 上 。 除 了 初始 启动 过 程 ， 在 每 个 字 的 传输 过 程 中 不 再 
需要 CPU 介入 ， 也 不 需要 占用 CPU 内 部 寄存 器 。 在 数据 传输 的 同时 ，CPU 可 以 完成 任何 其 他 
需要 的 操作 。 

对 于 有 很 多 设备 共享 总 线 的 系统 而 言 ， 会 有 一 些 DMA 通道 ， 每 一 个 通道 被 赋予 不 同 的 端 
点 和 优先 级 ， 如 果 有 两 个 以 上 的 DMA 通道 同时 要 求 操作 ， 那 么 允许 优先 级 高 的 通道 先 使 用 总 
线 。 框 6.1 给 出 了 基于 ARM 的 处 理 器 中 DMA 系统 的 工作 过 程 。 
一 种 商用 处 理 器 中 的 DMA 

让 我 们 来 看 一 个 实例 一 一 基于 ARM9 的 S3C2410， 它 是 三 星 公 司 生 产 的 一 款 片 上 系统 处 理 器 。 它 有 4 
个 DMA 通道 ， 一 个 控制 器 位 于 内 部 总 线 和 外 部 总 线 之 间 ， 实 现 内 外 总 线 数据 传输 的 各 种 组 合 。 

每 个 通道 有 5 种 可 能 的 触发 源 ， 以 一 个 包括 三 个 状态 的 有 限 状 态 机 控制 。 假 设 我 们 已 经 选 定 了 重复 
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性 操作 ， 正 确 设 定 了 源 和 目的 地 址 ， 则 具体 操作 如 下 所 示 : 

状态 1: DMA 控制 器 等 待 DMA 请 求 ， 此 时 ，DMA ACK 和 INT REQ 均 为 不 活动 状态 (0)。 如 果 得 到 
DMA 请 求 ， 则 转 到 状态 2。 

状态 2: DMA ACK 置 1， 设 置 计数 器 为 重复 执行 次 数 ( 即 由 该 通道 传输 的 数据 量 )， 然 后 转 到 状态 3。 

状态 3: 从 源 地 址 读数 据 ， 然 后 写 到 目的 地 址 上 。 重 复 该 过 程 ， 计 数 器 递减 ， 直 至 为 0， 此 时 ， 有 选 
择 地 中 断 处 理 器 以 示 传 输 操作 完成 ， 然 后 返回 状态 1。 

虽然 DMA 在 许多 设计 中 改进 了 处 理 器 效率 ， 但 对 于 性 能 关键 的 系统 仍 存在 进一步 改进 的 
空间 。 事 实 上 ， 在 一 些 CPU 中 DMA 控制 器 本 身 就 是 一 个 简单 的 足够 智能 的 CPU。 以 基于 ARM 
的 Intel IXP425 网 络 处 理 器 为 例 ， 它 包括 一 些 集成 外 设 ， 例 如 USB、 高 速 串口 和 两 个 以 太 网 
MAC (介质 存 取 控 制 器 : 一 种 以 太 网 接口 器 件 ) 。 主 处 理 器 工作 频率 为 333MHz， 其 他 三 个 从 
处 理 器 工作 频率 为 100MHz， 专 门 处 理 系统 总 线 上 的 输入 /输出 。 这 些 RISC 处 理 器 将 主 ARM 
CPU 从 宛 长 、 低 效 的 总 线 操作 和 存储 器 存 取 操 作 中 解放 出 来 ， 而 每 个 从 处 理 器 专门 用 来 运行 
MAC 协议 ,使 得 IXP425 非常 适合 完成 网 络 操作 。 


6.2 并 行 总 线 规范 

基于 ARM9 的 三 星 S3C2410 片上 系统 器 件 的 总 线 工 作 时 序 如 图 6-2 所 示 。 之 所 以 以 此 为 
例 ， 是 因为 三 星 清楚 地 定义 了 时 序 与 参数 ， 以 及 时 序 与 为 数 不 多 的 控制 寄存 器 之 间 的 对 应 关 
系 。 对 大 多 数 CPU 而 言 ， 情 况 要 复杂 得 多 一 一 需要 人 工 完成 周期 数 计算 , 包含 组 合 和 分 离 参 
数 ， 以 及 常见 的 非常 规 行为 等 。 | 





Tacs Tcos Tacc Tacp Tcoh Tcah 


图 6-2 三 星 基 于 ARM9 的 片上 系统 S3C2410 的 SRAM 总 线 工 作 时 序 图 。 上 半 部 分 是 时 钟 和 总 的 控制 信 
号 。 中 部 是 读 操作 相关 信号 (这 期 间 nWE 始终 保持 高 电 平 ) ， 底 部 是 写 操 作 相 关 信 和 号 (这 期 间 
nOE 始终 保持 无 效 ， 即 高 电 平 ) 。 注 意 读 写 操作 不 会 同时 发 生 ， 在 任何 时 候 最 多 只 有 一 个 操作 发 生 


HCLK 时 钟 是 主板 时 钟 之 一 ， 用 于 驱动 存储 器 接口 和 片上 其 他 器 件 。 其 工作 频率 一 般 为 
100MHz， 且 在 片 外 无 效 一 一 在 此 仅 作为 参考 时 钟 。25 位 外 部 地 址 总 线 和 nGCS 片 选 信号 定义 
了 到 外 部 器 件 的 接口 ， 例 如 ROM 或 类 似 的 器 件 〈 包 括 使 用 该 接口 的 大 部 分 外 部 总 线 相连 器 
件 ) 。 当 与 任何 外 部 器 件 互 操作 时 这 些 信 号 有 效 。 图 6-2 底部 的 阴影 部 分 表示 读 写 信号 及 其 相 
应 行为 。 

时 序 图 中 一 些 总 线 为 高 阻 状态 ， 即 线 的 位 置 非 高 非 低 处 于 中 间 ， 表 示 该 线 没有 被 驱动 。 

该 时 序 适用 于 读 和 写 操 作 ， 通 过 S3C2410 寄存 器 可 以 设置 通过 接口 所 连接 的 外 部 器 件 的 访 
问 方式 。 由 nGCS 片 选 的 每 个 外 部 器 件 共享 数据 、 地 址 、 读 / 写 线 等 ， 但 其 时 序 为 独立 设置 。 因 
此 ， 快 速 和 慢 速 器 件 可 以 共存 于 同一 物理 总 线 上 ， 只 是 片 选 信号 各 自 独 立 。 
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下 表 给 出 了 图 6-2 中 所 示 时 序 信号 的 含义 以 及 与 该 时 序 图 对 应 的 设置 。 


























信号 参量 含义 设置 
Tacs 先 于 nGCS 有 效 的 地 址 设置 时 间 (0、1、2 或 4 周期 ) 1 周期 
Teos 先 于 nOE 的 片 选 设置 时 间 (0、1、2 或 4 周期 ) 1 周期 
Tacc 存 取 周期 (1、2、3、4、6、8、10 或 14 周期 ) 3 周期 
Tacp 页 模式 下 存 取 周期 (2、3、4 或 6 周期 ) 2 周期 
Teoh 在 nOE 无 效 后 片 选 保持 时 间 (0、1、2 或 4 周期 ) 1 周期 
Tcah 在 nGCS 无 效 后 地 址 保持 时 间 (0、1、2 或 4 周期 ) 2 周期 


页 模式 是 指 一 些 针 对 某 一 器 件 的 重复 性 操作 以 快速 突 发 方式 完成 ， 不 需要 存 取 其 他 器 件 。 
框 6. 2 讨论 了 一 些 采 用 上 述 总 线 连接 外 部 器 件 的 例子 。 注 意 , 一 些 器 件 直 接 利用 nWAIT 信和 号 
准确 地 告诉 CPU Tace 的 长 度 ( 即 外 部 器 件 需要 CPU 等 待 的 时 间 和 一 些 可 能 的 设置 ) ， 而 有 些 
器 件 则 与 上 述 器 件 的 连接 方式 大 不 相同 ， 例 如 SDRAM 类 器 件 。 
外 设 连 接 总 线 设 置 

下 面 是 一 些 外 部 器 件 连接 示例 。 假 设 总 线 时 钟 为 100MHz ( 即 每 周期 10ns) ， 我 们 来 看 一 下 如 何 利用 
上 述 信号 实现 连接 。 

问 : 一 个 慢 存 储 器 件 需 要 120ns 查找 一 个 内 部 地 址 。 

答 : 这 意味 着 读 写 周 期 必须 大 于 120ns。 相 关 设 置 参数 是 存 取 周期 Tace， 应 设置 为 14 个 周期 ， 即 大 
于 120ns 的 最 小 周期 数 。 

问 : 一 个 外 设 的 片 选 信号 必须 在 读 / 写 信 号 之 前 至 少 25ns 有 效 。 

答 : 在 这 种 情况 下 ，nGCS 必须 先 于 nOE 设置 为 低 电 平 ， 相 关 参 数 为 Tacs， 应 设置 为 4 个 周期 ， 即 大 
于 25ns 的 最 小 设置 。 

问 : 一 个 外 设 在 被 读 取 数据 之 后 ,保持 12ns 对 总 线 驱 动 状态 。 

答 : 在 这 种 情况 下 ,我 们 需要 确保 在 读 该 外 设 之 后 的 12ns 时 间 内 总 线 不 被 其 他 设备 占用 。 相 关 参 数 
为 Teah 或 Teoh 或 两 者 兼 有 (多 数 情况 下 是 Tcoh)。 安 全 起 见 ， 我们 将 二 者 均 设 置 为 1 周期 ， 总 共 为 
20ns。 该 时 间 称 为 保持 期 (hold-off period) 。 

通常 ， 外 设 手册 上 都 有 时 序 图 ， 由 此 可 以 推导 出 需要 的 信息 。 但 是 ， 当 存在 不 确定 之 处 时 ， 可 以 先 
选择 最 长 或 最 慢 的 数值 作为 起 点 ， 然 后 在 保证 系统 可 靠 工 作 的 前 提 下 逐步 减 小 它们 。 另 外 ， 为 保险 起 见 ， 
应 选择 稍 慢 于 最 快 设置 的 数据 一 一 因为 可 以 在 实验 室 环 境 下 工作 的 最 快 设置 未 必 能 够 在 寒冷 或 炎热 的 实 
际 环境 下 工作 ， 未 必 能 够 在 使 用 若干 年 后 仍 正常 工作 。 


6. 3 ”标准 接口 

现代 计算 机 ， 无 论 是 嵌入 式 系统 、 台 式 机 还 是 服务 器 ， 都 倾向 于 使 用 有 限 的 几 种 标准 接 
口 。 本 书 只 是 简单 介绍 一 下 比较 常见 的 几 种 接口 及 其 特性 。 

这 些 接口 根据 数据 传输 、 系 统 控制 、 存 储 器 连接 等 功能 进行 分 类 。 值 得 注意 的 是 很 多 接口 
被 创造 性 地 应 用 ， 超 出 了 原 设 计 者 的 设计 考虑 。 


6. 3. 1 系统 控制 接口 


系统 控制 接口 用 于 控制 和 设置 各 种 低速 器 件 。 它 们 的 典型 特征 是 引 脚 空间 有 效 、 相 对 低 
速 、 结 构 简单 。 下 面 是 一 些 系 统 控 制 接口 的 例子 。 

e SPI( Serial Peripheral Interconnect ) ， 串 行 多 点 编 址 ，20MHz。 

e IIC(Inter-IC Communications) ， 串 行 多 点 编 址 ，1MHz。 

e CAN(Controller( or Car) Area Network ) ， 串 行 多 点 编 址 ， 若 干 MHz。 
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还 存在 一 些 变种 ， 例 如 Atmel 公司 的 TWI(Two Wire Interface) ，Dallas 半导体 公司 的 1-wire 
接口 等 。 


6. 3.2 系统 数据 总 线 


多 年 来 ， 业 内 一 直 致 力 于 引入 标准 总 线 和 并 行 总 线 体系 结构 。 下 表 给 出 了 在 个 人 计算 机 体 
系 结构 中 常见 的 并 行 总 线 。 值 得 一 提 的 是 戏 入 式 系 统 往往 倾向 于 使 用 与 此 不 同 的 总 线 体系 结 
构 。 其 中 有 两 个 典型 例子 : 一 是 AMBA， 源 于 ARM 公司 和 GEC Plessey 半导体 公司 (后 成 为 
Marconi 公司 的 一 部 分 ， 最 后 被 Mitel 半导体 公司 收购 ) ， 参 见 6. 2 节 S3C2410 例子 中 的 相关 摘 
述 ; 二 是 APB( ARM Peripheral Bus ) 。 在 大 量 的 片上 系统 和 艇 人 式 处 理 器 设计 中 均 可 以 看 到 
AMBA 和 APB。 这 些 总 线 的 命运 远 强 于 IBM 于 20 世纪 80 年 代 后 期 引入 的 MCA( MicroChannel 
Architecture) ， 尽 管 MCA 被 认为 是 一 个 良 定 义 的 总 线 系统 ， 但 最 终 被 EISA 淘汰 。 
























































总 线 名 称 宽度 (位 ) 速度 (MHz) 数据 速率 ( MiB/s) 
8 位 ISA(Industry Standard Architecture) 8 8 4 
16 位 ISA 16 8 8 
EISA( 扩 展 ISA) 32 8.33 33.3 
32 位 PCI( Peripheral Component Interconnect) 32 33 132 
64 位 PCI 64 33 264 
1 x AGP( Advanced Graphic Port) 64 66 266 
8 x ACP 64 533 2100 
VL-BUS 33 50 132 
SCSI-I & I 8 5 40 
Fast SCSI-II 8 10 80 
Wide SCSI-II 16 10 60 
Ultra SCSI-III 16 20 320 
PCIexpress 一 一 每 通道 (最 多 32 通道 ) (采用 LVDSD ) 1 2500 >500 
RAMBUS(184 引 脚 DRAM 接口 ) 2 1066 4200 
IDE®/ATA® 16®9 66® 133® 
SATA( 串 行 ATA) ， 采 用 LVDS 1 1500 150 
SATA-600 1 未 知 600 


DLVDS: Low-Voltage Differential Signaling。 

IDE( Integrated Drive Electronics) : 对 应 于 第 一 个 ATA 实现 。 

(ATA( Advanced Technology Attachment) : 现在 重 命名 为 并 行 ATA 或 PATA， 以 区 别 于 SATA。 
@ 假 设 ATA-7 操作 。 

@ 在 45cm 最 大 线 长 上 运行 时 为 133MHz。 


虽然 有 大 量 的 总 线 系统 (这 里 列 出 的 只 是 比较 常见 的 ), 但 它们 存在 着 很 多 的 共性 ， 大 多 
数 采用 了 相同 的 基础 通信 方式 和 仲裁 策略 。 有 为 数 不 多 的 几 种 电压 和 时 序 标准 供 选择 。 

有 时 一 些 电器 特性 相同 的 总 线 在 基于 它 建立 的 实际 通信 协议 中 被 赋予 了 不 同 的 名 字 和 使 用 
方式 。0SI 层次 参考 模型 ( 见 10.4 节 ) 将 底层 电器 参数 、 硬 件 和 时 序 参数 等 定义 为 物理 层 的 
一 部 分 ， 而 将 通信 协议 定义 在 数据 链 路 层 。 例 如 物理 层 接口 LVDS (低压 差分 信号 ) 已 被 越 来 
越 多 地 用 作 髓 入 式 计算 机 系统 中 的 高 速 串 行 总 线 。 

在 进一步 探讨 在 SATA 和 其 他 方案 中 作为 物理 层 的 LVDS 之前， 我 们 先 来 了 解 一 下 两 种 常 
见 的 传统 总 线 。 

6. 3. 2.1 1ISA 总 线 及 其 衍生 总 线 

工业 标准 体系 结构 (ISA) 总 线 由 IBM 在 20 世纪 80 年 代 早期 推出 ， 用 于 个 人 计算 机 ( 特 
别 是 IBM 个 人 计算 机 ) 总 线 系统 。 很 快 ， 该 8 位 总 线 于 1988 年 在 ISA 的 扩展 版 本 EISA 中 扩展 
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为 16 位 及 32 位 总 线 。 每 个 新 的 扩展 版 本 都 与 前 面 的 版 本 兼容 。 

正如 前 面 所 提 到 的 ，IBM 在 此 之 后 试图 转 到 微 通道 体系 结构 (MCA) ,但 是 由 于 IBM 没有 
完全 授权 该 总 线 成 为 一 个 完整 的 总 线 标准 ， 很 自然 地 其 他 计算 机 厂家 依然 继续 使 用 EISA 总 线 。 
之 后 ，IBM 放弃 了 MCA, 但 ISA 后 来 的 衍生 总 线 ， 即 外 部 设备 单元 互联 (PCI) 总 线 和 VESA 
本 地 总 线 ， 确 实 融合 了 IBM MCA 总 线 的 一 些 特性 。 

作为 总 线 ， 从 使 用 年 限 的 角度 看 ISA 和 EISA 是 很 成 功 的 ， 但 它们 始终 面临 着 严重 的 可 用 
性 问题 〈 见 框 6.3) 。 这 些 问 题 伴随 着 无 休止 的 提速 压力 ， 最 终 导致 了 用 于 台式 机 的 PCI 总 线 
的 定义 和 采用 。 

ISA 不 仅 派 生出 PCI 和 VESA 总 线 ， 还 有 ATA 标准 ，ATA 标准 又 衍生 出 IDE 标准 、 增 强 型 
IDE (EIDE) 、PATA 和 SATA 等 。 事实 上 ，ISA 还 衍生 出 了 PC 卡 标准 接口 。 尽管 ISA 作为 标 
准 已 经 经 历 了 30 年 ， 但 它 仍 然 作 为 传统 总 线 在 当今 计算 机 系统 中 使 用 。 

Wi 于 了 基 ”ISA 面临 的 问题 

ISA 作为 它 那 个 时 代 的 产品 ， 其 设计 是 很 合理 的 ; 用 于 Intel 8088 的 8 位 总 线 ， 时 钟 频率 为 
4.77MHz， 工 作 在 5V 电压 下 。 然 而 ， 它 存在 早 前 的 CPU 具有 的 严重 的 硬件 局 限 性 和 可 用 性 问题 。 

硬件 局 限 性 

Intel 8086 和 8088 采用 40 引 脚 双 列 直 插 式 封装 (DIP)， 分别 包 括 16 位 和 8 位 外 部 数据 总 线 。 由 
于 缺少 引 脚 ， 外 部 总 线 被 复 用 ， 即 一 些 物 理 引 脚 完成 两 个 功能 。 即 使 如 此 ， 最 多 也 只 能 有 20 根 地 址 
线 ， 即 只 能 支持 存 取 1MB(2”) 地 址 空间 。 更 强 的 约束 来 源 于 8086 内 部 的 16 位 地 址 寄存 器 ， 它 意味 
着 只 能 存 取 64KB(2“") 地 址 空间 。Intel 也 提供 了 两 种 类 型 的 外 部 总 线 存 取 : 存储 器 存 取 (使 用 20 位 
地 址 总 线 ) 和 IO 存 取 (使 用 20 位 总 线 中 的 16 位 总 线 ) 。 有 趣 的 是 现代 许多 系统 中 仍然 保留 着 这 种 存 
储 器 和 地 址 空间 划分 一 一 这 与 追求 简洁 的 ARM 之 类 的 处 理 器 不 同 ， 它 们 只 将 存储 器 空间 映射 到 外 部 地 
址 空间 。 

虽然 8088 的 引 脚 通 过 缓存 和 解 复 用 后 连接 到 ISA 总 线 上 ， 但 总 线 仍然 受到 20 位 地 址 约束 ， 且 采用 
分 立 的 IO 存 取 (为 此 提供 了 单独 的 控制 引 脚 集合 ) 。 这 样 做 的 优点 是 ISA 总 线 可 以 很 好 地 支持 4 通道 
DMA ( 见 6.1.2 节 )。 

可 用 性 问题 

这 一 点 并 不 单单 针对 获 入 式 计 算 机 系统 ， 还 有 助 于 理解 ISA 被 PCI 替代 的 原因 。 许 多 个 人 计算 机 用 
户 在 安装 ISA 卡 (或 EISA 卡 ) 时 碰 到 了 问题 。 用 户 不 仅 需要 将 总 线 卡 物理 地 插入 系统 ， 还 想 要 安装 软 
件 提供 多 数 普通 用 户 不 知道 的 信息 ， 例 如 总 线 卡 所 连接 的 VO 端口 、DMA 通道 、IRQ (中 断 请 求 ) 线 等 。 
当然 ， 相 比 更 旱 的 需要 跳 线 安装 卡 的 设备 而 言 ， 这 种 提供 配置 信息 的 做 法 已 经 是 进步 了 。 

一 些 安装 软件 可 以 扫描 ISA 总 线 以 寻找 已 安装 的 卡 。 有 时 可 以 正常 工作 ， 有 时 却 会 使 系统 崩溃 ， 其 
原因 是 用 户 输入 了 错误 的 信息 。 一 些 个 人 计算 机 允许 在 BIOS 控制 下 或 在 自动 引导 过 程 中 交换 ISA 插 模 ， 
这 意味 着 总 线 卡 今天 能 正常 工作 ， 而 明天 未 必 能 。 

为 此 ， 制 造 商 开 始 定义 称 为 “ 即 插 即 用 ”(plug and play) 的 标准 ， 简 写成 PnP。 理 论 上 讲 ， 这 意味 
着 插入 卡 后 即 可 工作 。 但 是 ， 这 个 标准 很 快 就 被 称 为 “ 即 插 即 祷 ” (plug and pray) ， 由 此 导致 了 这 种 总 
线 在 战略 上 让 位 。 很 幸运 ，PCI 替代 了 ISA/EISA， 这 预示 着 一 个 用 户 简 化 的 新 时 代 的 到 来 。 

6.3.2.2 PC/104 


在 嵌入 式 系统 中 出 现 最 多 的 ISA 总 线 版 本 是 由 PC/104 组 织 推出 的 PC/104 总 线 标准 。 
PC/104 标准 对 印 制 电 路 板 小 型 化 提出 了 强制 性 要 求 ， 即 96mm x 60mm， 这 对 于 许多 租 人 
式 系统 而 言 是 很 理想 的 。 该 电路 板 的 一 个 边 上 有 一 个 8 位 ISA 总 线 连接 器 。 这 个 2. Smm 宽 的 连 


加 PC 卡 以 前 叫 作 PCMCIA ( Personal Computer Memory Card International Association ) ， 不 过 它 还 有 一 个 名 字 
“People Can’ t Memorize Computer Industry Acronyms”( 见 http:/www. sucs. swan. ac. uk/cmckenna/humour/ com- 
puter/acronyms. html ) 。 

© http:/www. pc104. org。 
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接 器 上 分 两 排 排列 了 64 个 引 脚 。 在 项 部 该 连接 器 表现 为 一 个 插 模 ， 而 在 底部 该 连接 器 表现 为 
引 脚 。 这 种 设计 使 得 电路 板 可 以 释放 在 一 起 。 通 常 ， 一 个 40 引 脚 的 连接 器 JP/P2 与 男 一 个 连 
接 器 几 /P1 和 至 加 在 一 起 可 提供 一 个 16 位 扩展 ISA 数据 总 线 。 

表 6-1 给 出 了 PC/104 引 脚 的 定义 。 列 A 和 列 B 是 原始 ISA 信号 定义 ,包括 与 存储 器 相连 
的 8 位 数据 线 (SD0 ~ SD7) 和 20 位 地 址 线 (SA0 ~ SA19 ) ，LO 读 写 线 (SMEMW"， 
SMEMR* ，IOW* ，IOR* )， 若 干 IRQ 引 脚 以 及 DMA 信号 线 (以 “D” 开 头 )。 连 接 器 提供 的 
电压 有 +5V、-5V、+12V、-12V 和 GND。 而 通常 只 使 用 +5V， 除 非 有 驱动 EISA232 等 的 


表 6-1 


引 脚 号 
0 


PP 了 和、 和 mi 一 


IOCHCHK * 
SD7 
SD6 
SD5 
SD4 
SD3 
SD2 
SD1 
SDO 
IOCHRDY 
AEN 
SA19 
SA18 
SA17 
SA16 
SA15 
SA14 
SA13 
SA12 
SA11 
SA10 
SA9 
SA8 
SA7 
SA6 
SA5 
SA4 
SA3 
SA2 
SA1 
SA0 
CND 





J1/P1 列 B J2/P2 列 C1 
一 GND 
GND SBHE* 
RESETDRYV LA23 
+SV LA22 
IRQ9 LA21 

-5V LA20 
DRQ2 LA19 

一 12V LA18 
ENDXFR LA17 

+12V MEMR 
key MEMW 
SMEMW SD8 
SMEMR SD9 
IOW SD10 
IOR SD11 
DACK3 SD12 
DRQ3 SD13 
DACK1* SD14 
DRQI SD15 
REFRESH key 
SYSCLK 
IRQ7 
IRQ6 
IRQ5 
IRO4 
IRQ3 
DACK2°* 

TC 
BALE 

+5V 
0OSC 
CND 
GND 


PC/104 连接 器 引 脚 定义 ， 包 含 双 列 连 接 器 J1/P1 和 J2/P2， 其 中 低 电 平 有 效 信号 
用 “* ”标记 。 表 中 的 两 个 “key” 是 0. 1 英寸 连接 器 上 和 孔 的 位 置 
J1/P1 列 A 


J2/P2 列 D1 
GND 
MEMCS16” 
IOCS16 
IRQ10 
IRQ11 
IRQ12 
IRQ15 
IRQ14 
DACKO™* 
DRQO 
DACK5 
DRQ5 
DACK6 
DRQ6 
DACK7” 
DRO7 
+5V 
MASTER * 
GND 
GND 


外 部 总 线 181 





包括 列 Cl 和 列 D1 的 第 二 个 连接 器 提供 了 更 大 的 地 址 空间 ， 并 把 数据 总 线 扩展 到 16 位 
(同时 提供 了 更 多 DMA 功能 ) 。 这 是 一 个 并 行 总 线 ， 以 SYSCLK 实现 信号 之 间 的 操作 同步 。 

6.3.2.3 PCI 

外 部 设备 单元 互联 (PCI) 总 线 于 20 世纪 90 年 代 早 期 发 布 ， 全面 替 代 了 ISA/EISA。 虽 然 
USB 近年 来 也 成 为 那些 通过 内 部 插 卡 形式 连接 的 外 部 设备 的 又 一 种 可 选 接口 ， 但 PCI 恺 怕 仍 然 
是 当代 应 用 最 为 广泛 的 PC 机 内 部 总 线 。 另 外 ， 以 更 加 快速 的 串 行 连接 为 基础 的 PCI 增强 型 
(PCIe) 在 最 近 的 系统 中 正在 逐步 取代 PCI。 

与 ISA 类 似 ，PCI 也 是 同步 总 线 ， 工 作 时 钟 为 33MHz( 或 66MHz)。 另 外 与 EISA 类 似 ，PCI 
一 般 采 用 32 位 数据 总 线 ， 在 较 长 的 连接 器 中 也 可 以 采用 64 位 版 本 。 连 接 器 的 电压 可 以 不 同 ， 
有 3.3V 和 5V 两 个 版 本 。 不 同 版 本 的 连接 器 上 有 不 同 的 四 模 ， 以 防止 插入 错误 的 连接 器 (一 
些 “ 通 用 ” 卡 上 有 两 种 四 柳 ， 因 而 可 以 插入 到 两 种 版 本 的 系统 中 )。 与 ISA 相同 ，PCI 也 提供 
了 +1l2V 和 -127V 引 脚 ， 但 通常 不 会 使 用 。 

PCI 总 线 复 用 地 址 和 数据 引 脚 AD0 ~ AD31(64 位 版 本 中 到 AD63 ) ， 保 证 了 快速 数据 传输 和 
大 的 可 寻 址 存 取 空 间 。PCI 定义 了 总 线 仲裁 系统 ， 使 得 任何 与 总 线 相连 的 设备 可 以 请 求 总 线 ， 
而 仲裁 器 对 于 这 些 请 求 给 予 许可 应 答 。 总 线 上 置 控 制 信号 的 设备 为 主 设备 ， 也 称 为 动作 发 起 方 
(initiator) ， 而 从 设备 称 为 动作 接收 方 (target) 。 这 实际 意味 着 驱动 总 线 的 电压 信和 号 可 以 来 自 总 
线 上 的 任何 设备 。 这 一 点 对 PCI 总 线 上 信号 的 完整 性 有 很 大 影响 。 因 而 ， 对 于 所 有 总 线 上 的 设 
备 而 言 PCI 实现 了 非常 严格 的 信号 条 件 规范 。 

可 能 是 因为 始终 没有 忘记 与 I SA 和 EISA 相关 的 可 用 性 问题 ，PCI 器 件 必须 实现 通过 总 线 可 
存 取 的 寄存 器 以 标识 器 件 的 种 类 、 生 产 商 、 项 目 编 号 等 。 更 重要 的 是 ， 这 些 寄存 器 还 定义 了 器 
件 IO 地 址 、 中 断 相 关 细 节 以 及 存储 器 范围 。 

6.3.2.4 LVDS 

低 电 压 差分 信号 (LVDS) 是 一 种 非常 高 速 的 差分 串 行 方案 ， 它 利用 同步 的 小 范围 电压 变化 
来 表示 数据 位 。 它 的 宣传 词 为 “以 毫 瓦 获得 吉 比 特 ”， 原 因 是 LVDS 发 出 信号 速度 超过 2Gbit/s。 

注意 LVDS 不 是 像 I SA、PCI 这 样 的 总 线 协议 , 它 只 是 一 个 物理 层 通信 和 方案。 然而，LVDS 
已 被 现存 的 许多 总 线 标准 采纳 。 下 面 将 要 讨论 的 扩展 PCI 就 是 其 中 一 个 例子 。 

在 LVDS 中 每 个 信号 通过 两 条 线 发 送 。 它 们 是 差分 信号 ， 两 条 线 上 电压 的 不 同 组 合 表示 他 
辑 0 和 逻辑 1。 差 分 发 送 方案 可 以 排除 常见 形式 噪声 的 和 干扰， 这 种 噪声 的 特点 是 在 两 条 线 上 同 
时 出 现 〈 例 如 电力 线 噪声 以 及 来 自 附近 其 他 器 件 的 噪声 ) 。 事 实 上 ，LVDS 能 够 用 于 噪声 水 平 
超过 信和 号 电压 的 情况 。 

这 种 抗 噪 性 使 得 LVDS 连接 可 以 工作 在 较 低 的 电压 变化 范围 。 因 此 需要 相对 较 小 的 功 耗 ， 
并 能 够 达到 较 快 速度 和 产生 较 低 的 电磁 和 干扰。 图 6-3 所 示 为 LVDS 信号 传输 的 示意 图 ， 说 明了 
系统 差分 信号 的 性 质 及 其 对 于 共 模 噪声 的 抑制 。 

LVDS 的 电压 变化 范围 通常 为 0.25 ~0.3V。 由 于 信号 变换 (和 传输 ) 速度 取决 于 信号 从 一 
个 状态 变 到 另 一 个 状态 所 需 的 时 间 ， 而 LVDS 的 电压 变化 范围 非常 小 ， 因 此 信和 号 变换 速度 很 
快 。 传 输 系统 的 功 耗 与 电压 的 平方 成 正比 ， 因 此 像 LVDS 这 样 的 低 电 压 通信 方案 的 功 耗 比 3.3V 
或 5V 逻辑 系统 明显 要 低 。 类 似 地 ， 低 电压 变换 范围 还 使 得 LVDS 产生 的 电磁 干扰 很 低 。 

采用 差分 线 传输 信号 还 意味 着 当 一 根 线 上 的 电压 增高 时 另 一 根 线 上 的 电压 降低 。 如 果 我 们 
将 此 与 驱动 电流 相关 联 ， 则 在 任何 时 刻 发 送 器 件 必 须 有 驱动 电流 进入 一 条 线 、 离 开 另 一 条 线 。 
当 一 个 系统 设计 正确 时 ， 电 流入 出 可 以 达到 平衡 ， 这 与 大 多 数 电压 变换 方案 效果 不 同 ， 那 些 方 
案 在 信号 变化 的 瞬间 电流 会 出 现 尖 峰 。 供 电 电流 尖峰 转换 成 供电 电压 波动 ， 因 此 会 影响 系统 中 
的 其 他 电路 。 
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图 6-3 低 电 压 差 分 信号 (LVDS) 示意 图 ， 显 示 了 两 个 被 传输 的 差分 信号 。 在 接收 端 计算 这 两 个 信号 的 
差 值 (V -不 ) 并 以 此 确定 在 每 个 时 钟 周期 传输 的 数据 〈 见 底部 ) 。 虽 然 在 接收 端 和 发 射 端 都 需 
要 精确 地 同步 时 间 信 息 ， 但 实际 上 只 有 两 个 信号 V 和 (灰色 阴影 部 分 ) 被 传输 。 在 两 个 被 传 
输 信号 中 可 以 看 到 存在 少量 噪声 ， 但 在 接收 端 取 差 分 后 被 消除 了 


LVDS 接收 器 通常 需要 从 差分 数据 线 中 提取 时 钟 信 号 。 时 钟 恢 复 处 理 比 较 复 杂 。 但 是 ， 若 
要 与 数据 同时 但 分 立地 传输 时 钟 信 号 ， 通 常 还 需要 一 对 差分 信号 线 。 总 线 LVDS (BLVDS) 是 
LVDS 的 变型 ， 允 许多 个 器 件 共享 一 对 物理 差分 信号 线 。 

前 面 提 到 的 PCI 增强 型 (PCIe) 在 台式 机 系统 中 逐步 替代 了 PCI。PCIe 通常 需要 指明 有 多 
少 通道 可 用 。 例 如 ，PCIe 1x 有 1 条 通道 可 用 ，PCIe 4x 有 4 条 通道 可 用 ，PCIe 32x 有 32 条 通道 
可 用 ， 中 间 的 操作 过 程 相同 。 每 个 通道 是 一 对 LVDS 发 送 器 和 接收 器 ( 即 4 个 电 连 接 器 ， 两 个 
在 同一 个 方向 上 ) 。 每 个 通道 的 工作 频率 为 2.5CHz。 

PCIe 1x 连接 器 非常 小 ， 由 36 个 引 脚 组 成 ， 数 据 传 输 率 至 少 为 500Mbit/s (考虑 协议 产生 
的 开销 ) 。PCIe 16x 连接 器 的 尺寸 与 并 行 PCI 连接 器 相似 ， 但 要 快 得 多 。 


6. 3. 3 输入 /输出 总 线 


下 表 列 出 了 典型 的 输入 /输出 (LO0) 总 线 ， 其 中 一 些 在 个 人 计算 机 体系 结构 中 比较 常见 
(USB 不 在 其 中 ， 之 后 讨论 ) 。 
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| 总 线 名 称 





速度 





备注 





EIA232， 即 RS232 








EIA422 ， 即 RS422 











平衡 串 行 32 器 件 多 接收 端 


115200bit/s 
最 高 10Mbit/s 












EIA485 ， 即 RS485 
DDC， 显 示 数 据 通道 


与 422 相同 但 多 输出 端 


最 高 10Mbit/s 







-12V 和 0V 
最 低速 时 可 传输 lkm 
最 低速 时 可 传输 1km 











串 行 ， 数 据 线 ， 时 钟 线 ， 地 线 


基于 PC 总 线 









PS/X2 ， 键 盘 和 鼠标 
IEEE1284， 打 印 机 接口 






串 行 ,6 引 脚 的 minDIN 
并 行 ，25 引 脚 D 








最 高 150KB/s 


电 特 性 同 AT 接口 


















EIA 标准 由 电子 工业 联盟 (Electronic Industries Alliance) 批准 ， 它 采用 “RS” 为 前 缀 表示 
推荐 标准 ( 即 尚 未 批准 的 建议 标准 )。 例 如 ，EIA232 在 没有 成 为 正式 标准 前 称 为 RS232。 然 
而 ， 由 于 它 以 RS 前 级 的 形式 应 用 于 几乎 所 有 的 家 庭 和 台式 计算 机 中 ， 因 此 这 个 名 字 沿 用 至 今 。 
可 见 ， 相 对 于 消费 者 市 场 的 采纳 速度 ,标准 处 理 速度 存在 滞后 的 问题 ， 这 对 于 各 标准 组 织 而 言 
也 许 是 一 个 教训 。 


6. 3. 4 ”外 设 器 件 总 线 


下 面 给 出 一 些 常见 的 外 设 总 线 。 近 年 来 该 领域 一 直 朝 着 简单 即 插 即 用 串 行 总 线 方向 发 展 。 
很 多 年 长 的 计算 机 工程 师 肯定 还 记得 20 世纪 80 年 代 将 打印 机 连接 到 计算 机 上 时 的 痛苦 ， 当 时 
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串 行 外 设 连接 经 常 出 错 ， 只 有 并 行 总 线 ( 即 6.3.3 节 中 所 述 的 正 EE1284) 才 被 认为 是 安全 的 
选择 。 

。 USB1. 2， 通 用 串 行 总 线 ， 原 来 是 为 键盘 和 鼠标 这 类 设备 设计 的 一 种 串 行 格式 ,但 之 后 
被 广泛 用 于 各 种 外 设 上 。USB1. 2 的 最 长 距离 约 7m， 基本 数据 传输 速率 为 12Mbit/s。 
作为 一 个 串 行 总 线 ， 其 带宽 由 相连 的 所 有 器 件 共享 ， 且 每 个 器 件 要 付出 很 大 的 控制 代 
价 。 采 用 USB 的 主要 原因 也 许 是 它 可 以 给 所 有 外 设 供电 ， 使 各 个 外 设 不 需要 分 立 电源 
及 电源 线 。 

e。 USB2.0， 是 因为 引入 了 Firewire( 见 下 面 ) 而 出 现 的 。 它 很 大 程度 上 改进 了 USB1. 2 的 
速度 一 一 提高 到 480Mbit/s。 在 USB1.2 和 USB2.0 之 间 ，Firewire 在 视频 市 场 上 获得 了 
很 大 的 份额 ， 成 为 将 视频 信息 传输 到 计算 机 的 业界 认可 方法 。 

。 在 2008 年 提出 的 USB3. 0 将 数据 传输 速率 提升 到 5Gbit/s， 同 时 支持 真实 全 双 工 。 所 有 
的 USB 标准 允许 连接 头 为 外 设 充电 ， 而 USB3. 0 能 提供 2 倍 于 USB2. 0 的 传输 容量 。 改 
进 的 连接 头 为 Type-C 的 同时 ， 还 有 许多 其 他 功能 得 到 改善 。 

。 Firewire， 由 苹果 公司 开发 ， 也 是 一 种 串 行 格式 ， 被 批准 为 [EEE1394 标准 ， 传 输 速率 
为 400Mbit/s。IEEE1394b 将 速率 提高 一 倍 ， 达 到 800Mbit/s， 但 最 大 线 长 为 4. 5m 左右 。 
与 USB 类 似 ，Firewire 能 够 给 外 设 供电 ,但 厂商 并 没有 在 电压 或 电流 上 达成 一 致 标准 。 

。 PCMCIA (个 人 计算 机 存储 卡 国际 协会 ，6. 3.2 节 中 曾 简单 提 及 ) 于 20 世纪 90 年 代 初 
基于 ATA 或 IDE 接口 开发 了 插 卡 接口 ， 它 是 并 行 接口 ， 有 一 些 变 种 ， 具 有 很 高 的 速 
度 。 它 后 来 演变 成 紧 致 内 存 (compact flash，CF) 接口 。 

。 多 媒体 卡 (MMC) 是 一 种 串 行 接口 ， 主 要 用 于 相机 和 便携 式 音频 播放 器 中 的 闪存 卡 接 
口 ， 后 演化 成 安全 数字 (SD 和 xD) 存储 卡 格式 ， 保 持 着 串 行 接口 性 质 ， 但 允许 多 位 
并 行 传输 。 索 尼 的 记忆 棒 是 又 一 种 产品 ， 在 规格 说 明和 小 尺寸 封装 方面 与 MMC 类 似 。 


6. 3.5 与 网 络 设备 的 接口 


近年 来 ， 网 络 无 处 不 在 ， 人 们 长 时 间 离 开 网 络 就 会 感觉 若 有 所 失 。 片 上 系统 设计 师 没有 忽 
略 掉 这 一 趋势 ， pt 

典型 地 ， 介 质 存 取 控制 器 (MAC) 硬件 模 有 也 
块 被 集成 到 芯片 中 ， 而 物理 层 驱 动 器 (PHY) 
还 没有 被 集成 进去 ， 主 要 原因 是 以 太 网 物理 
层 接 口 的 模拟 驱动 和 不 同 的 电压 要 求 。 但 可 >» 和 
以 买 到 将 MAC 和 PHY 组 合 在 一 起 的 器 件 。 因 
此 ,预计 MAC 和 PHY 有 可 能 完全 被 集成 到 一 图 6-4 网 络 (以 太 网 ) 数据 通过 MAC 





个 片上 系统 中 。 当 前 的 集成 方案 与 图 6-4 所 示 连接 到 CPU 的 示意 图 
的 类 似 。 


假设 网 络 基 础 设施 是 以 太 网 ， 图 6-4 中 所 示 的 磁 接 口 与 PHY 相连 形成 了 一 个 常见 的 系统 方 
案 。MAC 和 PHY 之 间 的 接口 是 传输 介质 独立 的 接口 (Media-Independent Interface，MII) ， 表 示 通 
信 不 简单 局 限于 有 线 以 太 网 。 它 也 可 用 作 符 合 MII 标准 的 光 接 口 ， 只 是 可 能 需要 不 同 的 PHY 天 
件 。 无 线 是 另外 一 种 越 来 越 常 见 的 通信 方式 ， 它 也 基于 相同 的 标准 处 理 过 程 (将 于 6.6 节 讨 论 ) 。 


6.4 实时 性 问题 
还 记得 现代 计算 机 的 祖先 们 吗 ? 当时 的 计算 机 占 满 整个 房间 ， 完 成 抽象 的 数据 运算 ， 通 过 
离散 开关 或 穿孔 卡片 进行 编程 ， 需 要 几 分 钟 甚至 几 小 时 才能 得 出 结果 。 它 们 与 嵌入 式 系统 相差 
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其 远 ， 安 装 舱 入 式 系统 的 小 小 的 器 件 可 以 宜人 人 体 中 来 调节 血液 里 的 化 学 物质 ， 也 可 以 租 入 家 
用 汽车 中 控制 刹车 系统 。 后 者 是 硬 实时 系统 的 典型 例子 。 所 谓 硬 实时 是 指 必须 在 一 定 的 时 间 内 
做 出 响应 ， 和 否则 后 果 非 常 严重 。 

以 前 的 系统 没有 实时 性 要 求 。 它 的 设计 者 可 能 会 考虑 提高 计算 速度 以 便 可 以 早 些 回 家 , 但 
不 会 去 设计 一 个 计算 机 在 毫秒 级 对 外 部 激励 做 出 响应 。 这 意味 着 传统 计算 机 体系 结构 和 编程 语 
言 开 发 没有 考虑 到 实时 响应 的 需求 。 

今天 ， 由 于 骨 入 式 处 理 融 远 多 于 台式 机 ( 而 台式 机 又 远 多 于 大 型 机 )， 计 算 机 越 来 越 多 地 
在 实时 运行 。 大 量 实时 地 与 真实 世界 相互 作用 的 舱 入 式 器 件 就 是 实时 系统 ， 它 们 或 者 是 硬 实时 
或 者 是 软 实时 〈 若 错过 时 限 不 会 造成 灾难 性 后 果 ， 则 称 为 软 实时 ) 。 


6.4.1 外 部 激励 


外 部 激励 可 以 有 多 种 形式 ， 但 通常 与 一 些 传感器 相关 。 例 如 核反应 堆 的 过 温度 传感器 、 汽 
车 中 由 气 宫 控 制 的 加 速度 传感器 、 电 机 管理 系统 中 的 真空 开关 ， 以 及 老式 鼠标 中 的 光电 门 等 。 
这 些 传 感 器 在 任何 时 候 都 有 可 能 被 触发 。 

其 他 外 部 激励 还 有 以 太 网 上 有 数据 到 来 ， 或 数据 通过 并 行 端口 从 PC 机 输出 到 激光 打印 机 
上 。 这 两 种 激励 来 源 于 计算 机 本 身 ， 但 由 于 它们 到 达 目 标 处 理 器 的 时 间 不 可 预测 ， 因 此 它们 对 
于 目标 处 理 器 而 言 还 是 实时 激励 。 


6.4.2 中 断 


到 达 实 时 处 理 器 的 激励 都 会 被 转换 成 标准 形式 来 触发 CPU。 这 些 中 断 信号 通常 是 低 电 平 有 
效 ， 与 CPU 的 中 断 引 脚 相连 (在 片上 系统 中 一 个 片 内 信号 也 可 以 被 转换 成 低 电 平 有 效 输入 与 
CPU 相连 ) 。 

多 数 处 理 器 能 够 同时 支持 多 个 中 断 信和 号。 这些 信号 按 优先 级 排列 ， 当 两 个 或 多 个 中 断 同时 
被 触发 时 ， 首 先 响 应 优先 级 最 高 的 中 断 。 

在 6.5 节 中 将 更 全 面 地 讨论 中 断 ， 这 里 只 是 需要 认识 到 CPU 只 用 很 短 的 时 间 来 发 现 中 断 信 
号 ， 之 后 要 经 过 一 段 较 长 的 时 间 CPU 才能 够 处 理 这 个 中 断 ， 而 针对 该 中 断 实 际 完成 服务 则 需 
要 更 长 的 时 间 。 中 断 服务 通过 中 断 服 务 例 程 (ISR) 完成 一 一 在 5. 6. 3 节 中 讨论 影子 寄存 器 时 
曾 有 简单 介绍 。 当 设计 一 个 实时 系统 时 ， 必 须 确定 中 断 时 序 并 将 它们 与 任务 的 时 间 范 围 相 关联 
( 见 6.4.4 节 )。 


6. 4.3 实时 性 定义 

前 面 提 到 了 软 时 限 和 硬 时 限 ， 它 们 均 是 实时 性 约束 ， 区 别 在 于 错过 时 限 导致 的 后 果 不 同 。 
错过 人 硬 时 限 对 系统 而 言 是 灾难 性 的 ， 错 过 软 时 限 是 不 幸 的 但 非 致 命 失败 。 

这 些 术语 也 与 整个 系统 有 关 : 硬 实时 系统 包括 硬 时 限 要 求 。 如 果 所 有 时 限 都 是 软 时 限 ， 则 
这 个 系统 是 软 实时 系统 。 在 选择 操作 系统 时 ， 也 要 考虑 硬 实时 的 程度 。 例 如 pC/OS 能 够 满足 
人 硬 时 限 要 求 ， 而 嵌入 式 Linux 通常 只 能 进行 软 实时 响应 。 而 微软 的 操作 系统 则 非常 软 实 时 ， 因 
此 对 于 关键 任务 的 实时 系统 不 使 用 微软 。 

虽然 第 9 章 介绍 了 一 般 的 操作 系统 ， 但 是 没有 从 实时 操作 的 角度 描述 ， 因 此 本 节 重 点 关注 
这 个 角度 。 

一 个 任务 就 是 一 段 实 现 一 个 或 多 个 功能 的 程序 代码 ， 可 能 与 实时 输入 或 输出 相关 联 。 在 多 
任务 实时 操作 系统 (RTOS) 中 ,会 有 几 个 任务 并 发 运行 ， 每 一 个 任务 带 有 一 个 优先 级 。 多 数 
系统 围绕 着 中 断 或 时 钟 设计 ， 这 样 每 次 发 生 中 断 时 ， 都 会 触发 一 个 相应 的 任务 来 处 理 它 。 其 他 
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一 些 任 务 会 由 时 钟 到 期 来 触发 。 任 务 本 身 可 以 是 中 断 服务 例 程 ， 但 多 数 情况 下 任务 是 单独 的 代 
码 (目的 是 保持 ISR 尽量 短 ) ， 因 此 ， 当 ISR 运行 时 利用 RTOS 专门 的 函数 启用 相应 的 任务 。 
这 些 函 数 包 括 semaphores 、queues 和 mailboxs ， 它 们 是 RTOS 的 专用 函数 ,但 在 标准 操作 系统 中 
也 经 常 出 现 ， 我们 将 在 9.6 节 中 再 次 讨论 semaphores 函数 。 

许多 任务 大 部 分 时 间 处 于 休眠 状态 ， 等 待 被 ISR 或 其 他 任务 唤醒 ， 此 时 低 优先 级 的 后 台 任 
务 运行 完成 一 些 系统 相关 的 功能 或 日 志 ， 其 中 也 包括 了 调整 优先 级 的 工作 。 


6. 4.4 ”时 间 范 围 参数 

任务 的 时 间 范 围 (temporal scope) 参数 是 一 个 用 以 描述 实时 需求 的 五 元 组 。 对 于 有 时 限 约 
束 的 多 任务 实时 系统 而 言 这 是 非常 有 用 的 形式 化 描述 。 

下 面 是 定义 时 间 范 围 的 5 个 参数 ， 除 特别 说 明 外 ， 所 有 的 时 间 起 始 于 触发 该 任务 的 事件 到 
来 的 时 刻 。 


任务 开始 前 最 小 延 时 | 通常 为 0， 有 时 也 会 特别 要 求 
任务 开始 前 最 大 延 时 | 原则 上 讲 应 该 尽快 地 响应 中 断 ， 但 有 时 会 给 出 一 个 硬 时 限 











任务 处 理 的 最 长 时 间 | 从 任务 开始 到 结束 的 总 时 间 


任务 占用 的 CPU 时 间 | 它 也 许 不 同 于 上 面 的 参数 ， 因 为 任务 有 可 能 被 中 断 ， 因 此 推迟 一 段 时 间 ， 但 这 期 间 不 占用 CPU 
任务 最 大 完成 时 间 从 事件 触发 到 任务 完成 的 时 间 








多 数 时 间 范 围 参数 可 以 通过 分 析 系 统 需 求 来 确定 ,但 占用 CPU 时 间 只 能 通过 记录 任务 执 
行 的 指令 数 或 通过 0S 提供 的 测量 处 理 器 周期 数 的 方法 得 到 。 关 于 CPU 时 间 有 一 点 需要 注意 ， 
即 条 件 循环 根据 所 处 理 的 数据 可 长 可 短 。CPU 时 间 是 指 所 有 循环 均 按 照 可 能 的 最 长 时 间 来 计 
算 。 这 也 就 是 设计 紧凑 任务 代码 的 原因 。 

一 个 任务 图 如 图 6-5 所 示 。 图 中 列 有 3 个 有 效 任 务 及 它们 占用 CPU 的 时 间 。 坚 线 表示 调度 
器 工作 的 时 间 点 。 如 果 需 要 ， 它 可 以 切换 任务 。 调 度 器 通常 被 设计 为 一 个 系统 任务 ， 决 定 什么 
时 刻 选择 什么 用 户 任 务 占 用 CPU。 根 据 RTOS 类 型 的 不 同 ， 可 以 通过 两 种 方式 激活 调度 器 一 一 
以 固定 的 时 间 间 隔 或 在 任务 调度 点 通过 软件 本 身 的 调用 功能 实现 。 任 务 调度 点 一 般 出 现在 完成 
操作 系统 级 任务 库 函 数 的 时 候 ， 例 如 简单 的 有 printf() ， 通 常 在 先进 先 出 (FIFO)、 队 列 、mail- 
box 、 信 和 号 量 操作 时 刻 出 现 。 有 时 将 若干 方法 组 合 起 来 激活 调度 器 。 


任务 


1 
3 


时 间 
图 6-5 在 单 CPU 上 执行 的 3 个 任务 的 调度 图 


在 图 6-5 的 任务 图 中 ,调度 器 第 一 次 被 激活 时 (第 一 个 竖 线 ) 任务 1 正在 执行 。 调 度 器 没 
有 进行 任务 切换 ， 因 此 任务 1 继续 执行 ， 其 原因 可 能 是 任务 1 在 3 个 任务 中 优先 级 最 高 。 习 惯 
上 也 因此 将 任务 1 放 在 图 的 最 上 边 。 

任务 2 每 次 出 现 的 长 度 相 同 ， 说 明 它 每 次 运行 时 均 完 成 相同 的 工作 。 

从 上 面 这 个 例子 也 能 够 稍稍 理解 调度 器 的 工作 方法 。 首 先 ， 任 务 按 优先 级 排列 。 最 高 优先 
级 的 是 调度 器 ， 最 低 优先 级 的 是 系统 空闲 时 才 执 行 的 空闲 任务 〈idle task)。 在 租 入 式 系统 中 ， 
空闲 任务 可 以 处 理 低 优 先 级 VO， 例如 打印 调试 信息 或 刷新 LED (利用 低 优 先 级 任务 打印 调试 
信息 是 很 常见 的 ， 但 是 当 调试 一 个 整体 上 骨 溃 的 程序 时 ， 这 样 的 安排 就 起 不 到 帮助 调试 的 作用 
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了 ， 因 为 无 法 从 崩溃 的 任务 那里 得 到 调试 信息 ， 而 且 如 果 这 个 任务 一 直 在 运行 ,那么 空闲 任务 
就 没有 机 会 运行 ) 。 

调度 器 中 有 一 个 表 用 来 记录 所 有 任务 的 状态 : 和 运行、 等待、 休眠。 在 一 个 时 刻 只 会 有 一 个 
运行 态 任 务 ， 可 以 有 多 个 处 于 等 待 状态 的 任务 〈 即 等 待 运行 机 会 ) 。 休 眠 任务 处 于 停止 状态 ， 
可 能 是 临时 等 待 信号 量 或 某 个 数据 以 进入 队列 或 mailbox。 框 6.4 列 出 了 一 些 设置 调度 优先 级 的 
方法 。 
i 昱 和 ”调度 优 先 级 

给 定 实时 系统 中 的 一 些 任务 ,设计 者 面临 的 一 个 困难 是 如 何 给 任务 设置 优先 级 以 保证 它们 被 正确 调 
度 。 这 一 点 非常 重要 一 一 一 些 选择 可 能 会 导致 系统 不 能 满足 要 求 的 时 限 ( 即 不 可 调度 )， 而 一 些小 小 的 
改变 就 有 可 能 使 得 系统 正常 工作 。 下 面 是 一 些 常见 的 形式 化 优先 级 设置 方法 。 它 们 均 需 要 系统 中 所 有 任 
务 的 时 间 范 围 参 数 。 

时 限 单调 调度 : 最 紧 时 限 的 任务 拥有 最 高 优先 级 。 

频 度 单调 调度 : 越 经 常 被 触发 的 任务 其 优先 级 越 高 。 

最 早 时 限 最 先 调度 : 这 是 一 个 动态 调度 方法 ， 根 据 即 将 出 现 的 时 限 赋 予 相应 任务 高 优先 级 。 

其 他 还 有 最 重要 最 优先 、 自 组 织 、 轮 询 和 其 他 一 些 混 合 方案 (多 数 都 自称 比 其 他 的 好 )。 我 们 将 在 
9.7 节 中 再 次 查看 一 般 操作 系统 中 的 调度 ， 并 讨论 Linux 调度 器 的 示例 。 

第 9 章 中 将 会 从 Linux 操作 系统 以 及 更 贴近 软件 的 角度 回顾 多 任务 与 调度 的 内 容 。 


6. 4. 5 硬件 体系 结构 对 实时 操作 系统 的 支持 


这 是 一 本 计算 机 体系 结构 而 不 是 实时 系统 的 教科 书 ， 因 此 考虑 得 更 多 是 在 处 理 器 上 运行 实 
时 操作 系统 对 硬件 的 需求 ， 可 不 讨论 实时 性 对 操作 系统 的 需求 。 让 我 们 来 回顾 一 下 当 实 时 事件 
发 生 时 经 历 的 过 程 。 


事件 引发 对 处 理 器 的 中 断 信号 

处 理 器 发 现 中 断 

处 理 器 需要 一 小 段 时 间 完 成 正在 进行 的 工作 ， 转 到 中 断 向 量 ， 再 由 此 获得 与 该 中 断 向 量 关 联 的 ISR 入 口 地 址 
处 理 器 从 当前 执行 的 程序 转 到 一 个 中 断 服 务 例 程 

ISR 应 答 中 断 ， 释 放 一 个 任务 处 理 该 事件 

任何 较 高 优先 级 的 等 待 态 任务 优先 执行 

最 后 ， 切 换 到 处 理 该 事件 的 任务 上 下 文 

该 任务 处 理 这 个 事件 

















ov 路 | 内 上 Pi 一 


这 8 个 步骤 ( 详 见 6.5.2 节 ) 中 的 每 一 个 都 会 占用 一 些 时 间 ， 因 此 会 影响 系统 的 实时 响应 
时 间 。 

硬件 中 断 支 持 〈 详 见 6.5 节 ) 能 够 极 大 地 改进 响应 时 间 。 而 服务 于 任务 的 0S 功能 ， 特 别 是 
从 前 一 个 运行 代码 切换 到 ISR， 以 及 任务 之 间 的 切换 ， 是 十 分 耗 时 的 ， 也 可 以 通过 硬件 加 速 。 

首先 ， 影子 寄存 器 ( 详 见 5.6.3 节 ) 可 以 加 速 从 一 段 代码 到 另 一 段 代 码 的 切换 。ARM 实 
现 了 几 个 影子 寄存 器 集合 ， 其 中 之 一 是 监控 程序 (supervisor) ， 专 门 用 于 支持 0S 代码 ， 例 如 
调度 器 ， 因 此 ， 运 行 调度 器 不 需要 进行 耗 时 的 上 下 文 存 储 和 恢复 过 程 。 

一 些 CPU 采用 了 更 进一步 的 设计 ， 实 现 了 若干 组 寄存 器 ， 给 每 一 组 寄存 器 分 配 单独 的 任 
务 ， 因 此 ， 任 务 之 间 切 换 就 很 容易 了 。 不 需要 上 下 文 存 储 和 恢复 ， 简 单 地 切换 寄存 器 ， 然 后 跳 
到 正确 的 代码 即 可 。 

也 可 以 用 硬件 FIFO 和 堆栈 来 高 效 实现 mailbox 和 队列 以 进行 任务 之 间 的 通信 (否则 就 要 用 
软件 实现 数据 在 不 同 存储 块 之 间 的 搬移 ) 。 硬 件 实现 方案 因为 大 小 固定 而 缺少 灵活 性 ， 但 速度 
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非常 快 。 

虽然 硬件 实现 的 调度 器 没有 被 计算 机 体系 结构 设计 师 采纳 ， 但 理论 上 讲 这 是 可 行 的 。 也 许 
对 于 调度 过 程 最 高 性 能 的 硬件 支持 是 双核 (或 多 核 ) 处 理 器 ， 它 可 以 支持 超 线程 之 类 的 技术 。 
这 样 ， 两 个 任务 就 可 以 同时 运行 了 。Intel 的 处 理 器 Centrino Core 中 采用 了 一 种 MIMD 处 理 结构 
( 见 2.1.1 节 )。 其 他 制造 商 肯定 也 会 紧 随 其 后 (MIMD 和 双核 的 有 关内 容 参 见 5. 8. 1 节 )。 


6.5 中 断 和 中 断 处 理 
本 节 将 讨论 中 断 及 其 开销 ， 并 考虑 如 何 提高 服务 速度 。 我 们 在 5. 6. 3 节 已 经 描述 了 用 于 中 
断 服务 例 程 〈ISR) 的 影子 寄存 器 ， 所 以 本 节 不 再 论述 它们 对 提高 性 能 的 作用 。 


6. 5.1 中 断 的 重要 性 


中 断 及 其 处 理 是 计算 机 体系 结构 和 蔡 人 式 软件 工程 最 重要 的 课题 之 一 。 随 着 计算 机 与 真实 
世界 之 间 相 互 作用 程度 的 不 断 增加 以 及 嵌入 式 计算 机 系统 的 作用 越 来 越 关 键 ， 中 断 承 担 起 越 来 
越 重 要 的 工作 ， 其 中 就 包括 确保 处 理 器 能 够 尽快 地 响应 实时 事件 。 

前 面 讨 论 过 实时 事件 ， 这 里 还 有 必要 对 三 个 与 中 断 相 关 的 时 序 特 征 做 一 个 回顾 。 

1) 中 断 探测 时 间 一 一 从 CPU 发 现 事件 发 生 时 刻 到 能 够 做 出 响应 动作 时 刻 之 间 的 时 间 。 

2) 中 断 响应 时 间 一 一 从 CPU 开始 服务 一 个 事件 时 刻 到 按 最 坏 情况 计算 所 有 动作 均 完成 时 
刻 之 间 的 时 间 。 

3) 最 小 中 断 区 间 一 一 从 一 个 中 断 发 生 时 刻 到 该 中 断 可 以 再 发 生 的 最 早 时 刻 之 间 的 时 间 。 
如 果 中 断 没有 规律 性 ， 则 考虑 所 允许 的 最 短 时 间 间 隔 。 


6. 5.2 中 断 过 程 
明确 一 个 中 断 线 被 置 有 效 后 会 发 生 什么 是 非常 重要 的 ， 因 为 这 些 事 件 对 于 系统 体系 结构 有 
巨大 影响 。 下 面 进 一 步 细 化 6.4.5 节 给 出 的 表格 。 


外 部 事件 引发 对 处 理 器 的 中 断 信号 

处 理 器 发 现 中 断 

处 理 器 首先 完成 正在 进行 的 工作 ， 然 后 转 到 中 断 向 量 ， 再 由 此 获得 与 该 中 断 向 量 关 联 的 ISR 人 口 地 址 
处 理 器 从 当前 执行 的 程序 转 到 对 应 的 中 断 服务 例 程 

ISR 应 答 中 断 ， 释 放 所 有 等 待 该 事件 的 任务 

任何 较 高 优先 级 的 等 待 态 任务 优先 执行 

最 后 ， 切 换 到 处 理 该 事件 的 任务 上 下 文 

该 任务 处 理 这 个 事件 
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下 面 我 们 具体 看 看 前 5 步 ， 它 们 受 体 系 结构 的 影响 非常 大 。 

6. 5.2.1 中 断 事件 通知 处 理 器 

按照 常规 ， 给 CPU 的 中 断 信 号 是 低 电 平 有 效 ， 可 以 是 边沿 触发 也 可 以 是 电 平 触发 。 当 状 
态 发 生变 化 时 ,边沿 触发 中 断 信号 通知 CPU。 处 理 器 以 尽 可 能 快 的 速度 响应 边沿 触发 信号 一 一 
在 这 个 过 程 中 中 断 线 有 可 能 已 经 自 复 位 。 像 按键 这 类 事件 有 可 能 产生 这 种 中 断 (无 论 键 按 下 的 
时 间 有 多 长 ， 处 理 器 都 以 同样 的 方式 响应 ) 。 

电 平 触发 中 断 在 物理 上 与 此 类 做 一 一 但 处 理 器 在 事先 定义 的 时 间 采 样 中 处 于 断 线 状态 ， 例 如 
每 周期 一 次 。 一 旦 中 断 信号 给 出 ， 需 要 在 处 理 器 采样 前 提前 一 个 时 间 段 设 定 ， 这 个 时 间 段 的 长 度 
可 以 设置 。 例 如 ， 应 该 提前 三 个 采样 间隔 而 不 是 一 个 采样 间隔 ， 以 防止 因 噪声 尖 锋 带 来 误 判 。 
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中 断 信 号 一 旦 发 出 ,无 论 物理 上 的 中 断 线 是 否 售 用， 内 部 触发 电路 都 应 当 保 持 等 待 。 最 
终 ， 处 理 器 中 的 某 种 编码 将 会 用 于 服务 这 个 中 断 。 问 题 是 : 假如 在 前 面 的 中 断 没有 被 服务 之 前 
其 他 事件 又 触发 了 中 断 线 ， 将 会 带 来 怎样 的 结果 呢 ? 同样 ， 其 结果 依赖 于 采用 什么 处 理 器 ， 但 
一 般 情况 下 忽略 第 二 次 中 断 事件 。 这 是 因为 内 部 关于 “中 断 发 生 ” 的 标识 一 直 保 持 ， 直 到 在 
ISR 中 清除 中 断 指 令 时 才能 复位 。 

然而 ， 过 去 也 有 一 些 处 理 器 能 够 将 中 断 信 号 排队 〈 特 别 是 响应 中 断 速 度 较 慢 的 处 理 器 ) 。 
将 中 断 信和 号 排队 听 超 来 是 一 个 好 想法 ， 但 使 得 实时 处 理 变 得 很 复杂 ， 因 此 当今 通常 不 把 它 作为 
一 种 潜在 硬件 方案 。 最 好 的 解决 方法 是 无 论 什 么 中 断 事件 发 生 都 以 尽 可 能 快 的 速度 处 理 。 

6. 5.2.2 CPU 完成 正在 进行 的 工作 

现代 处 理 器 不 能 够 在 执行 一 条 指令 的 过 程 中 间 被 中 断 一 一 它们 必须 首先 完成 正在 执行 的 指 
令 。 过 去 的 CISC 处 理 器 用 许多 周期 完成 一 条 指令 ， 这 导致 中 断 响 应 时 间 被 延 后 。 例 如 ， 据 说 
DEC 的 VAX 计算 机 需要 1ms 时 间 完 成 一 条 指令 ， 这 对 于 正在 等 待 服 务 的 中 断 而 言 是 一 个 相当 
长 的 时 间 (以 音频 处 理 为 例 ， 这 意味 着 单个 中 断 可 以 支持 的 最 高 采样 率 为 1kHz， 远 低 于 今天 
MP3 播放 器 的 48kHz 和 44. 1kHz) 。 

人 们 试图 在 使 用 微 码 的 处 理 器 中 允许 在 指令 执行 过 程 中 中 断 ， 但 过 程 十 分 复杂 ， 因 此 没有 
被 广泛 采纳 。 实 时 系统 设计 者 由 于 RISC 人 处理 器 ( 见 3.2.6 节 ) 的 出 现 得 到 解脱 ， 其 单 周期 指 
令 的 设计 非常 明智 。 这 意味 着 完成 一 条 指令 的 最 长 时 间 理 论 上 为 一 个 指令 周期 ， 在 RISC 处 理 
器 上 一 个 指令 周期 通常 很 短 。 这 还 意味 着 在 这 样 短 的 时 间 内 就 可 以 完成 中 断 发 现 以 及 转 到 中 断 
向 量 的 过 程 。 

实际 上 ， 一 些 设计 者 并 没有 完全 坚持 RISC 的 概念 。 例 如 ARM ， 提 供 多 周期 寄存 器 取 和 寄 
存 器 存 指令 ， 这 些 指令 对 于 快速 数据 搬移 或 上 下 文 存储 和 恢复 很 有 用 ， 但 完成 它们 最 多 需要 花 
费 16 个 周期 。 因 此 ， 中 断 获得 中 断 向 量 在 最 坏 情 况 下 的 等 待 时 间 为 16 个 周期 ( 除非 程序 员 不 
使 用 多 周期 寄存 器 存 取 指 令 )。 

还 有 一 件 值得 注意 的 事情 ， 就 是 流水 线 的 作用 。 在 以 流水 线 方式 执行 指令 的 体系 结构 中 ， 
虽然 每 个 周期 有 一 条 指令 进入 流水 线 ， 但 需要 花费 n 周期 才能 够 完成 一 条 指令 ，n 为 流水 线 的 
长 度 。 若 没有 复杂 的 专用 硬件 支持 ， 则 一 个 影子 寄存 器 系统 在 跳 转 到 ISR 之 前 需要 等 待 当前 指 
令 全 部 流 过 流水 线 并 保存 好 结果 。 流 水 线 对 于 提高 指令 甜 吐 量 是 非常 有 效 的 ， 但 对 于 中 断 而 言 
却 降低 了 中 断 响应 速度 。 

6. 5.2.3 转 入 中 断 服务 例 程 

处 理 中 断 的 传统 方法 是 一 旦 中 断 发 生 ， 就 将 一 个 预先 设置 好 的 值 放 到 程序 计数 器 中 ， 由 此 
引起 CPU 跳 转 到 一 个 特殊 的 地 址 ， 这 个 特殊 地 址 根据 CPU 中 断 的 类 型 而 有 所 不 同 。 这 个 地 址 
对 应 的 存储 单元 在 主 存 中 称 为 中 断 向 量 。 

在 ARM 中 ， 中 断 向 量 开 始 于 主 存 地 址 0。 地 址 0 对 应 着 复位 向 量 (rest vector) ， 即 在 上 电 或 
复位 时 CPU 的 入 口 地 址 。CPU 的 每 一 个 事件 和 中 断 按 顺序 排列 。 向 量 表 中 的 内 容 是 转移 到 事件 处 
理 程序 的 分 支 指令 。 复 位 向 量 中 存储 着 跳 转 到 启动 程序 的 分 支 指令 。 在 IRQ1 中 是 跳 转 到 处 理 
IRQ1 中 断 的 ISR 的 分 支 指令 〈( 当 从 C 语言 转换 为 汇编 程序 时 ， 经 常 使 用 双 下 划 线 表示 ) 。 

下 面 是 ARM 程序 中 典型 的 中 断 向 量 表 : 


_ start 

_undefined instruction 
_software interrupt 
Erefeteh abort 

_data abort 

_not used 

-irq 

_fiq 





团团 四 四 四 四 四 可 
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图 6-6 显示 了 在 执行 程序 的 过 程 中 如 何 利用 中 断 向 量 表 处 理 中 断 事件 。 


可 以 看 到 ,首先 从 复位 向 量 开 始 ， 执 行 跳 转 到 
起 始 程序 的 分 支 指令 (B_ start)。 程 序 正 常 执行 
(如 左边 的 实 线 箭头 所 示 )， 直 到 在 第 二 条 SUB 指令 
执行 过 程 中 发 生 中 断 。 该 指令 完成 后 跳 转 到 该 中 断 


/prefetch abort 
对 应 的 中 断 向 量 ， 在 这 个 例子 中 是 IRQ。 虽 然 图 中 没 dh 
有 给 出 ， 但 我 们 可 以 假设 在 此 过 程 中 执行 了 向 影子 "BIRQ /IRQ os, 
寄存 器 组 的 切换 。IRQ 的 中 断 向 量 中 包含 一 条 到 相 ep 
应 中 断 服务 例 程 的 分 支 指令 ， 在 这 里 是 ISR1。 这 个 程 a Ro RoR 和 
序 服务 于 该 中 断 ， 一 旦 完成 则 返回 到 原来 被 中 断 的 程 Ge SUBS B3, R6, R9 上 


序 中 的 下 一 条 指令 。 同 样 ， 虽然 图 中 没有 给 出 ,我 们 Ce de 
依然 可 以 假设 在 从 中 断 返 回 时 从 影子 寄存 器 组 切换 回 
原来 的 寄存 器 组 。 在 一 些 处理 器 中 切换 过 程 自动 完成 ， R2, R3, [RO, ASL #2] 
但 在 一 些 处 理 器 中 则 需要 使 用 不 同 的 返回 指令 ( 例 

如 ，TMS320C50 的 RET 指令 完成 从 子 程序 返回 ，RETI 
指令 完成 从 中 断 返 回 ， 在 返回 时 RETI 自动 弹出 影子 
寄存 器 组 ) 。 很 显然 这 种 情况 下 机 器 使 用 了 影子 寄存 
器 组 ， 因 为 ISR 和 主 程序 代码 中 使 用 了 相同 的 寄存 器 
名 ， 而 没有 显 式 地 保存 和 恢复 上 下 文 的 操作 。 

还 有 一 件 事 值得 注意 : 向 量 表 中 没有 使 用 的 中 断 
都 对 应 着 NOP 指令 ， 这 意味 着 如 果 这 类 中 断 发 生 ， 则 
执行 NOP 指令 ， 然 后 执行 下 一 条 NOP 指令 ， 如 此 下 
去 直到 有 事情 发 生 。 例如 ， 如 果 data_abort 事件 发 生 
(由 于 某 种 存储 器 错误 ) ， 则 跳 转 到 中 断 向 量 ， 执 行 
NOP 指令 ， 再 执行 下 一 个 NOP 指令 ， 直 到 最 后 到 达 跳 
转 到 ISR 的 分 支 语 句 。 此 时 ， 虽然 没有 IRQ 发 生 , 但 
ISR1 将 被 执行 。 因 此 ， 对 于 所 有 的 中 断 ， 无 论 它 们 有 
没有 被 使 用 ， 最 好 都 有 对 应 的 中 断 服 务 例 程 ， 可 以 只 第 二 个 SUB 执行 过 程 中 中 断 
是 输出 错误 信息 ,这样 当 该 中 断 发 生 时 至 少 有 错误 发 生 ， 因 此 , 在 ADDS 前 转 人 
提示 。 处 理 该 中 断 的 服务 程序 。 实 线 
ARM ea yg 


ARM 有 两 个 外 部 中 断 源 ， 标 准 中 断 (IRQ) 和 快速 中 断 (FIQ)，FIQ 有 较 高 优先 级 。 对 于 FIQ 有 6 
个 影子 寄存 器 ， 而 对 于 IRQ 只 有 一 个 影子 寄存 器 (假设 我 们 需要 4 个 寄存 器 ) 。 由 于 指令 是 32 位 的 ， 外 
部 总 线 是 16 位， 因此， 从 存储 器 取 数 到 寄存 器 或 从 寄存 器 存 数 到 存储 器 需要 2 个 周期 。 

IRQ 中 断 向 量 位 于 中 断 向 量 表 的 中 部 ， 而 FIQ 向 量 在 最 后 (这 意味 着 如 果 中 断 程序 直接 放 到 这 个 位 
置 ， 则 不 需要 FIQ 从 中 断 向 量 表 到 中 断 服 务 例 程 跳 转 的 分 支 指令 ) 。 

ARM7 的 最 长 指令 是 从 存储 器 的 连续 空间 批量 取 16 个 数 到 寄存 器 ， 需 要 20 个 周期 。 它 占用 3 个 周期 
来 锁 存 中 断 。 假 设 分 支 指令 需要 2 个 周期 。 存 在 一 种 优先 级 高 于 FIQ 和 IRQ 的 操作 ， 即 SDRAM 刷新 操 
作 。 假 设 需要 25 个 周期 完成 刷新 操作 ， 则 处 理 器 的 工作 时 钟 为 66MHz。 

我 们 可 以 确定 要 花费 多 长 时 间 才 能 开始 服务 IRQ 和 FIQ。 以 周期 为 单位 ,下面 是 当 IRQ 有 效 时 连续 
发 生 的 事情 。 

1) 辨识 中 断 需 要 的 时 间 : 3 周期 。 


= 
CL 
ee npn 


B RIB Ra 
ee 二 Row 


图 6-6 通过 分 支 到 中 断 向 量 表 调 用 中 
断 服务 例 程 。 图 中 从 上 电 开 始 
的 执行 包括 位 于 __start 的 初始 
化 分 支 。 在 handler 子 程序 的 
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2) 最 坏 情况 下 完成 当前 指令 需要 的 时 间 : 20 周期 。 

3) 若 SDRAM 需要 刷新 ， 则 需要 等 待 : 25 周期 。 

此 时 ，CPU 可 以 响应 中 断 。 

4) 从 当前 位 置 跳 转 到 中 断 向 量 表 以 读 取 其 中 某 行 : 2 周期 。 

5) 执行 向 量 表 中 的 指令 ， 分 支 到 IJISR: 2 周期 。 

此 时 进入 ISR。 

6) 上 下 文保 存 3 个 寄存 器 (我 们 需要 4 个 ， 另 一 个 是 影子 寄存 器 ) : 2x3 =6 周期 。 

7) 执行 响应 中 断 的 第 一 条 指令 : 2 周期 。 

总 指令 周期 数 : 60 周期 。 

总 时 间 (66MHz 处 理 器 每 周期 大 约 为 15ns): 0.9ps。 

就 中 断 响 应 而 言 lus 是 比较 快 的 。 的 确 ， 中 断 响 应 速度 快 是 ARM 体系 结构 的 优点 之 一 。 

下 面 我 们 考虑 FIQ 的 情况 。 在 这 个 例子 中 ， 主 要 有 两 点 不 同 : 一 点 是 有 更 多 的 寄存 器 可 以 通过 影子 
寄存 器 方式 保存 上 下 文 ; 另 一 点 是 FIQ 代码 可 以 直接 驻 存 在 中 断 向 量 表 中 ， 不 需要 跳 转 。 因 此 FIQ 与 
IRQ 的 不 同 在 于 : 

5) 不 需要 分 支 到 JSR: -2 周期 。 

6) FIQ 有 6 个 影子 寄存 器 ， 因 此 不 需要 保存 上 下 文 : -6 周期 。 

总 指令 周期 数 : 52 周期 。 

总 时 间 (66MHz 处 理 器 每 周期 大 约 为 15ns): 0.78hs。 

在 时 钟 频率 不 变 的 前 提 下 我 们 还 可 以 做 进一步 改进 吗 ? 是 的 ， 我们 可 以 在 程序 中 避免 使 用 20 周期 的 
最 长 时 间 指 令 ， 可 以 变换 存储 器 技术 。 避 免 使 用 批量 取 数 - 存 数 指令 和 去 掉 SDRAM 刷新 周期 ， 能 够 帮 
助 我 们 达到 0.2hs 的 总 时 间 。 注 意 基 于 ARM7 的 处 理 器 通常 不 采用 SDRAM， 而 基于 ARM9 或 以 上 版 本 的 
处 理 器 倾向 于 使 用 SDRAM。 

6. 5.2.4 中 断 重 定向 

关于 中 断 向 量 表 还 有 一 点 需要 解释 。 假 设 存 储 器 的 低地 址 部 分 映射 到 ROM， 因 为 其 中 包 
含 引 导 加 载 程序 (bootloader) ， 而 高 地 址 部 分 的 存储 器 映射 包括 RAM。 如 果 没 有 修改 中 断 向 量 
表 的 机 制 ， 就 意味 着 存储 在 RAM 中 的 代码 不 能 利用 中 断 向 量 ， 这 对 RAM 中 想 使 用 中 断 的 代码 
是 很 不 利 的 。 

因此 ， 硬 件 中 通常 会 有 一 个 机 制 将 中 断 向 量 重新 映射 到 存储 器 的 另 一 个 地 址 空间 〈 框 6.6 
给 出 了 一 个 ARM 处 理 器 上 的 例子 ) 。 在 启动 复位 时 ， 执 行 引 导 加 载 程 序 ， 装 载 某 个 程序 并 开始 
执行 。 这 个 程序 导致 中 断 向 量 表 被 重新 映射 到 RAM， 了 映射 到 一 个 独占 的 地 址 空间 ， 因 此 可 以 
为 所 有 的 中 断 修 改 其 中 断 向 量 。 

我 们 将 在 9. 5 节 讨 论 更 多 关于 引导 与 引导 加 载 程序 的 内 容 。 
引导 过 程 中 存储 器 重新 映射 

通常 需要 执行 两 个 分 支 才能 够 进入 ISR， 一 些 处 理 器 采用 了 稍微 变化 的 方法 绕 过 这 个 问题 。 例 如 基 
于 ARM 的 Intel IXP425 XScale， 在 上 电 初 始 化 阶段 ， 将 闪存 或 ROM 映射 到 存储 器 的 地 址 0 及 以 上 的 空 
闻 ， 以 便 执 行 引导 (boot) 程序 。 通 过 设置 CPU 内 部 的 一 个 寄存 器 还 可 以 将 引导 程序 区 映射 到 存储 器 的 
最 上 段 空 间 ， 而 将 SDRAM 映射 到 地 址 0 及 以 上 空间 。 

因此 ， 引 导 加 载 程序 只 需要 确保 包含 中 断 向 量 的 程序 被 装载 到 内 存 ， 且 最 低 段 地 址 空间 对 应 着 
RAM， 则 引导 加 载 程序 可 以 发 出 重新 映射 命令 。 

可 是 事情 并 不 这 样 简单 ， 因 为 引导 加 载 程序 本 身 从 ROM 地 址 空间 执行 ， 当 重新 映射 发 生 时 ， 引 导 加 
载 程序 代码 就 会 消失 。 换 名 话说 ， 如 果 程 序 计 数 器 (PC) 位 于 地 址 0x00000104 时 执行 重新 映射 指令 ， 则 
当 PC 递增 指向 下 一 条 指令 地 址 0x00000108 时 (因为 指令 长 度 为 32 位 ， 因 此 PC 每 次 递增 4 字 节 ) ， 那 条 
指令 已 经 不 在 那里 ， 而 是 被 重新 映射 到 较 高 地 址 空间 上 了 。 

有 一 个 简单 的 技巧 可 以 解决 该 问题 。 看 看 你 能 否 在 继续 往 下 读 之 前 知道 答案 。 

如 果 在 重新 映射 之 后 相同 地 址 上 恰好 出 现 原 来 的 代码 ， 我们 的 问题 就 解决 了 。 实 际 上 这 就 意味 着 将 
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引导 加 载 程序 代码 复制 到 RAM 的 较 高 地 址 空间 ， 然 后 再 进行 重新 映射 ，XScale 的 一 些 引导 加 载 程序 版 本 
正 是 采用 了 这 种 方法 ， 如 U- Boot。 

另 一 种 解决 方案 是 将 引导 加 载 程序 分 成 两 个 部 分 或 两 个 阶段 。 第 一 阶段 中 将 第 二 阶段 执行 的 代码 复 
制 到 RAM 地 址 空间 ， 然 后 第 一 阶段 跳 转 到 第 二 阶段 并 完成 重新 映射 。9. 5 节 会 介绍 更 多 关于 典型 嵌入 式 
系统 的 稳定 引导 程序 的 内 容 。 

当 使 用 实时 操作 系统 RTOS 时 ， 可 能 会 有 第 二 层 向 量化 : 所 有 的 中 断 触发 OS 中 同一 个 
ISR， 而 0S 中 注册 了 外 部 函数 与 相关 事件 之 间 的 对 应 关系 。 当 这 样 注册 的 某 个 事件 发 生 时 ， 中 
断 照常 进行 , 但 0S 中 的 ISR 通过 分 支 跳 转 到 注册 的 中 断 处 理 程序 。 这 种 机 制 可 以 在 不 支持 硬 
件 中 断 共 享 的 处 理 器 或 片上 系统 中 实现 中 断 共 享 。 在 这 种 情况 下 ，0S 负责 决定 哪 一 个 共享 中 
断 发 生 并 跳 转 到 相应 的 处 理 程序 。 硬 件 中 断 共 享 方法 将 在 6. 5. 4 节 中 介绍 。 


6. 5.3 高 级 中 断 处 理 


在 标准 中 断 处 理 过 程 的 基础 上 ， 我 们 再 来 研究 一 下 提高 该 过 程 效率 的 机 制 ， 即 预先 将 中 断 
转移 地 址 取 到 寄存 器 中 。 

设想 常规 情况 : 当中 断 发 生 时 ， 处 理 器 将 跳 转 到 中 断 向 量 表 中 的 指定 位 置 。 表 项 中 包含 一 
条 (有 时 是 两 条 ) 指令 指示 CPU 转移 到 相应 ISR 的 和 人口 地 址 。 这 样 ， 该 过 程 需要 两 个 顺序 分 
支 ， 如 5. 2 节 所 述 分 支 指令 在 采用 流水 线 机 制 的 机 器 中 效率 很 低 ， 因 此 ， 这 种 需要 两 次 分 支 的 
方案 不 是 个 好 方案 。 

可 见 ，CPU 最 好 知道 对 应 着 每 个 事件 中 断 向 量 表 中 存储 的 分 支 地 址 。 为 此 ， 这 个 分 支 地 址 
应 当 存储 在 处 理 器 内 部 ， 即 一 些 寄存 器 中 ， 当 中 断 发 生 时 将 该 地 址 复制 到 程序 计数 器 中 。 知 向 
量 地 址 寄存 器 可 写 ， 就 可 以 对 应 不 同事 件 填写 向 量 地 址 。 这 使 得 ISR 首 地 址 可 以 存放 在 向 量 地 
址 寄存 器 中 。 当 中 断 发 生 时 ， 处 理 器 直接 跳 转 到 ISR 首 地 址 而 不 需要 通过 中 断 向 量 表 一 一 这 种 
方法 既 可 以 用 于 共享 中 断 ， 也 可 以 用 于 独 享 中 断 。 

这 种 方法 的 代价 是 需要 一 组 可 写 寄存 器 〈 它 比 只 读 寄存 器 需要 更 多 的 硅 面积 ) 且 中 断 控 
制 器 稍微 复杂 了 一 些 。 


6. 5.4 共享 中 断 


今天 的 很 多 计算 机 系统 实现 了 共享 中 断 。 其 最 初 原 因 是 只 有 有 限 的 集成 电路 引 脚 用 于 硬件 
On A 
的 中 断 。 例 如 ，ARM 有 两 个 分 立 中 断 : 一 个 中 断 请 求 (IRQ) 和 一 个 快速 中 断 (FIQ)， 
个 基于 ARM 的 典型 片上 系统 艇 入 式 处 理 器 往往 会 有 32 个 中 断 源 ， 它 们 共享 IRQ 和 FIQ 

当 一 个 被 共享 的 中 断 发 生 时 ，ISR 程序 的 
开始 部 分 就 要 读 一 个 寄存 器 以 区 分 这 个 共享 
中 断 是 由 哪个 中 断 源 触 发 的 ， 之 后 调用 相应 
的 代码 来 响应 中 断 。 中 断 也 可 以 由 RTOS 或 软 
件 中 断 触 发 。 有 些 时 候 ， 一 个 很 大 的 ISR 可 
以 完成 服务 很 多 共享 中 断 的 工作 。 

共享 中 断 需要 一 个 中 断 控 制 器 。 中 断 控 
制 器 可 以 是 一 个 专门 用 于 处 理 中 断 的 集成 电 
路 芯片 ， 也 可 以 是 在 片上 系统 从 入 式 处 理 器 
中 集成 一 个 先进 中 断 控制 器 (Advanced Inter- 
rupt Controller，AIC) 模块 ， 后 一 种 方案 在 当 图 6-7 ”用 于 片上 系统 中 中 断 控制 
今 的 设计 中 更 常见 。 图 6-7 是 一 个 例子 。 模块 的 中 断 共 享 硬件 框图 
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从 这 个 例子 可 见 CPU 本 身 只 有 一 条 由 三 个 外 设 共 享 的 中 断 线 。 中 断 控制 器 内 部 有 一 个 
CPU 可 写 寄存 器 ， 用 于 屏蔽 共享 这 条 中 断 线 的 某 些 中 断 ， 而 那些 没有 被 屏蔽 的 中 断 则 会 引发 
CPU 中 断 。 

当 CPU 中 断 被 触发 时 ，CPU 通过 读 状态 寄存 器 来 确定 引发 该 中 断 的 中 断 源 。 通 常 ， 读 状 
态 寄 存 器 动作 同时 完成 清空 寄存 器 的 操作 以 便 接 受 下 一 个 中 断 请 求 (图 中 的 逻辑 电路 没有 包括 
这 一 部 分 ) 。 


6. 5.5 可 重 入 代码 


尽管 中 断 信 号 为 了 保证 触发 中 断 响应 保持 了 足够 长 的 有 效 时 间 ， 且 又 有 清除 中 断 机 制 ， 但 
这 并 不 意味 着 同一 个 中 断 可 以 立即 重新 触发 。 虽 然 具 体 情 况 随处 理 器 的 不 同 而 不 同 ， 但 大 多 数 
器 件 在 服务 某 一 中 断 的 过 程 中 不 允许 相同 的 中 断 再 次 被 激活 ( 即 不 允许 再 人 (re-entrant) 该 
中 断 ) ， 直 到 ISR 执行 完毕 。 或 者 在 第 一 个 中 将 断 处 理 过 程 中 将 忽略 第 二 个 中 断 ， 或 者 在 ISR 
完成 时 立即 引发 重新 中 断 。 

一 些 更 先进 的 处 理 噩 允许 高 优先 级 事件 中 断 较 低 优 先 级 的 SR， 这 通常 要 求 硬 件 为 每 个 
ISR 提供 影子 寄存 器 或 提供 很 精心 设计 的 上 下 文保 存 和 恢复 功能 。 


6. 5.6 软件 中 断 


软件 中 断 (SWI) 是 低级 别 软件 中 断 高 级 别 代码 的 一 种 方法 。 在 RTOS 中 ， 它 通常 用 于 操 
作 系 统 干预 任务 级 代码 处 理 。 在 ARM 处 理 器 中 ， 发 出 软件 中 断 的 代码 为 : 


SWI Ox123456 


它 将 触发 影子 寄存 器 集合 的 切换 。 这 时 处 理 器 将 进入 系统 态 ( 而 常规 程序 工作 在 用 户 态 )。 
ARM 在 系统 态 下 有 权 修 改 在 用 户 态 下 不 能 修改 的 设置 ， 系 统 态 结束 时 跳 转 到 中 断 向 量 表 的 第 
三 项 ， 即 地 址 8 (参见 6.5. 2 节 中 的 ARM 中 断 向 量 表 ) 。 

软件 中 断 是 一 种 典型 的 处 理 器 捕获 ， 对 程序 调试 很 用。 在 软件 某 一 行 设置 断 点 的 一 种 方 
法 就 是 用 软件 中 断代 替 这 条 指令 。 一 旦 执行 到 这 条 指令 时 处 理 器 就 会 被 中 断 ， 跳 转 到 软件 中 断 
向 量 ， 然 后 执行 软件 中 断 服务 例 程 。 

在 软件 中 断 服 务 例 程 中 ， 调 试 软 件 可 以 存 取 内 存 和 用 户 态 下 的 寄存 器 ， 然 后 调试 程序 等 待 
来 自用 户 的 命令 。 


6.6 藤 入 式 无 线 连接 


本 书 主要 从 插入 式 系统 的 角度 介绍 了 计算 机 设备 。 读 者 要 意识 到 越 来 越 多 的 骨 入 式 计算 正在 
网 络 化 ， 越 来 越 多 藤 入 式 计算 机 也 在 以 某 种 方式 连接 到 互联 网 。 这 样 做 的 原因 是 本 书 是 从 艇 人 式 
的 角度 审视 计算 机 体系 结构 ， 而 越 来 越 多 的 嵌入 式 系统 是 关于 或 为 了 实现 无 线 通 信和 而 设计 的 。 

因此 ， 在 本 节 我 们 简单 考察 无 线 技术 ， 由 于 其 与 嵌入 式 计 算 机 系统 有 关联 。 当 今 主 要 的 无 
线 技术 会 在 6. 6 节 讨论 (由 于 该 主题 是 更 大 的 网 络 主题 分 支 ， 第 11 章 中 会 讨论 ) 。 在 探索 相关 
问题 之 前 ， 我 们 会 总 结 无 线 技术 的 主要 特点 ， 随 后 讨论 所 使 用 的 接口 技术 。 


6. 6. 1 无 线 技术 


虽然 无 线 工程 师 根 据 射 频频 带 ( RF) 、 信 道 带宽 、 发 射 功 率 、 调 制 方式 等 将 无 线 技术 分 为 
许多 类 别 , 但 是 ， 骨 入 式 系 统 工程 师 出 于 其 目的 将 会 考虑 不 同 的 问题 : 

。 与 CPU 的 连接 一 一 尤其 是 串 行 连接 还 是 并 行 连接 。6. 6: 2 节 将 详细 讨论 。 

。 数据 格式 一 一 数据 是 以 位 、 字 节 / 字 符 、 字 还 是 包 为 单位 传输 。 这 不 仅 涉 及 连接 方式 ， 
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还 涉及 数据 交换 的 标准 ， 例 如 USB 或 人 (网际 协 议 ) 包 。 
数据 速率 一 一 通常 以 位 每 秒 为 度量 单位 (注意 厂家 给 出 的 标 称 值 往往 未 包括 额外 开销 ， 
例如 分 包 、 包 头 、 校 验 码 等 ， 因 此 实际 可 用 数据 速率 可 能 会 远 低 于 标 称 值 ) 。 当 然 ， 数 
据 速率 与 应 用 需求 相 匹配 十 分 重要 ， 但 值得 注意 的 是 对 于 实时 应 用 而 言 数 据 速 率 并 不 
一 定 与 处 理 时 间 相 关联 。 一 个 每 秒 可 送出 几 兆 位 数据 的 系统 对 单个 事件 的 反应 时 间 可 
能 慢 于 一 个 每 秒 只 能 送出 几 千 位 的 系统 。 
外 形 因素 一 一 包括 物理 尺寸 、 数 量 、 天 线 大 小 等 。 低 频 器 件 往往 需要 较 大 的 天 线 。 
范围 一 一 与 发 射 功率 相关 。 无 线 电 管 理 法 规 对 此 会 有 约束 (根据 频带 和 用 途 ， 发 射 功 
率 通常 约束 在 0.25W， 最 多 不 超过 1W)。 
。 功 耗 因素 一 一 与 发 射 功率 、 范 围 和 数据 速率 相关 。 
错误 处 理 一 一 是 需要 保证 无 错误 通信 ， 还 是 不 需要 考虑 错误 处 理 ? 6. 6. 3 节 将 详细 讨 
论 该 问题 。 

。 CPU 开销 一 一 是 一 个 需要 考虑 的 重要 因素 。 

当 设 计 者 需要 在 苦 入 式 系统 中 实现 无 线 通信 功能 时 ， 要 考虑 上 述 问题 并 寻求 综合 平衡 点 。 

目前 存在 许多 无 线 标准 且 适 合租 入 式 系统 。 本 节 重 点 讨论 设计 者 在 分 析 和 评估 候选 方案 时 
需要 考虑 的 问题 。 

首先 ， 图 6-8 给 出 了 一 个 无 线 模块 到 应 用 处 理 器 模块 的 连接 框图 。 该 应 用 处 理 器 通常 是 应 
用 系统 中 唯一 与 无 线 模块 相连 的 CPU。 








图 6-8 用 于 内 人 式 计算 机 的 三 个 无 线 通 信 处 理 方案 框图 ， 其 中 包括 两 个 计算 器 件 负责 无 线 通信 处 理 和 一 
个 谍 人 式 应 用 处 理 。 这 些 器 件 或 者 分 别处 理 各 个 需求 ， 或 者 a) 基带 处 理 与 应 用 处 理 在 一 起 完 
成 , 或 者 b) 一 个 附加 设备 提供 无 线 通信 功能 给 应 用 处 理 器 ， 或 者 ec) 在 一 个 设备 上 处 理 无 线 通 
信和 应 用 
很 清楚 ， 无 线 通 信和 系统 通常 需要 信号 处 理 ， 且 当今 大 多 数组 人 式 系统 设计 师 采 用 的 无 线 解 
决 方案 通常 采用 数字 方法 实现 数字 信号 处 理 。 前 端 处 理 ( 可 以 用 模拟 方法 实现 ,但 逐渐 倾向 于 
采用 数字 方法 ) 是 对 接收 到 的 或 要 发 送 的 无 线 信和 号 在 最 前 端 进 行 调节 。 要 处 理 的 数据 速率 往往 
在 MHz 或 CHz 量 级 ， 是 位 速率 的 若干 倍 。 相 反 ， 基 带 处 理 是 较 慢 的 协议 层 计 算 ， 例 如 包 处 理 、 
包 错误 校 验 、 跟 踪 重 试 和 重 发 等 。 
当 系统 设计 者 没有 选择 遵循 标准 而 是 定义 自己 的 方案 时 ， 基 带 处 理 功 能 会 放 在 应 用 处 理 器 
内 完成 (如 图 6-8a 所 示 ) 。 甚 至 有 可 能 采用 一 个 计算 器 件 完成 所 有 的 处 理 (如 图 6-8c 所 示 ) 。 
这 在 技术 上 是 可 行 的 ， 但 会 给 应 用 处 理 器 带 来 很 大 的 协议 处 理 开 销 ， 或 者 设计 者 无 法 免费 获得 
这 部 分 的 源 代码 形式 。 因 此 ， 基 带 处 理 需要 单独 完成 ， 或 者 在 一 个 单独 的 器 件 中 ， 或 者 集成 到 
前 端 处 理 中 (如 图 6-8b 所 示 ) 。 
将 无 线 处 理 从 应 用 处 理 器 中 分 离 出 来 的 最 重要 原因 可 能 是 不 想 从 头 开始 。 重 新 设计 一 个 可 
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靠 的 无 线 通信 系统 的 确 是 很 困难 的 。 当 确实 存在 可 工作 的 产品 时 ， 最 合理 的 选择 就 是 使 用 它 。 


6. 6. 2 无 线 接口 


我 们 在 6. 1 节 中 已 经 将 CPU 总 线 分 为 囊 行 和 并 行 两 种 ， 对 于 无 线 连接 我 们 也 可 以 应 用 这 种 
划分 方法 。 虽 然 数据 在 空气 中 传播 可 以 是 串 行 、 并 行 或 某 种 混合 方式 ， 但 是 无 线 设 备 与 CPU 
之 间 一 定 存在 一 个 接口 ， 或 是 串 行 接口 或 是 并 行 接口 。 

简单 、 慢 速 的 无 线 设 备 采 用 串 行 接口 : 如 果 在 无 线 链 路 的 一 端 送 出 一 个 串 行 数据 ， 就 能 够 
在 无 线 链 路 的 另 一 端 接收 到 这 个 数据 。 如 果 该 链 路 存在 误 码 控制 ， 则 可 以 假设 收 到 的 数据 ( 相 
对 而 言 ) 是 没有 错误 的 。 和 否则 ， 应 用 程序 中 就 要 加 入 误 码 校 验 功能 。 无 线 USB 标准 属于 串 行 
接口 范畴 。 

基于 网 际 协议 的 方案 ， 例 如 正 EE802. 11( WiFi) 和 IEEE802. 16(WiMAX) 是 基于 块 的 。 协 
议 的 处 理 单位 是 整个 数据 包 。 因 此 ， 为 了 提高 效率 ， 这 类 标准 的 无 线 模 块 与 CPU 的 接口 通常 
采用 并 行 总 线 并 通过 直接 存储 器 存 取 方 式 ( 见 6. 1.2 节 ) 进行 数据 传输 。 事 实 上 这 很 像 标 准 以 
太 网 设备 与 CPU 的 接口 ( 见 6.3.5 节 )。 


6. 6. 3 无 线 相关 问题 


加 入 无 线 模块 使 得 系统 又 增加 了 一 种 连接 方式 。 当 然 ， 无 线 通 信 明 显 会 影响 系统 功 耗 需 
求 。 但 是 ， 更 重要 的 还 有 以 下 问题 必须 加 以 考虑 。 

第 一 个 就 是 前 面 提 到 过 的 一 个 问题 : CPU 开销 。 显 然 ， 当 协议 处 理 功能 由 应 用 处 理 器 完成 
时 ， 势 必 会 占用 很 大 一 部 分 处 理 器 时 间 〈 最 坏 情 况 是 每 一 个 接收 到 的 包 都 有 错 ) 。 然 而 ， 即 使 
采用 分 离 器 件 完 成 无 线 信号 处 理 和 协议 处 理 ， 而 应 用 处 理 器 只 是 负责 输入 输出 ， 还 是 需要 许多 
CPU 周期 去 管理 无 线 通信 。 

当 需 要 考虑 误 码 处 理 时 ， 就 需要 辨识 和 处 理 不 同类 型 的 误 码 。 当 然 ， 以 太 网 也 面临 同样 问 
题 。 但 以 太 网 要 么 没有 误 码 ， 要 么 整个 包 都 接收 不 到 ， 而 无 线 连接 的 误 码 状况 往往 处 在 两 个 极 
端 之 间 。 

进一步 的 问题 是 安全 问题 一 一 采用 有 线 网 络 ， 很 容易 知道 被 连接 者 (只 需要 顺 着 线 找 即 
可 )。 但 是 无 线 连接 是 不 可 见 的 。 设 计 者 必须 意识 到 接收 到 数据 并 做 出 回复 的 并 不 一 定 是 正确 
的 接收 者 。 随 着 租 入 式 系 统 中 计算 机 技术 的 快速 发 展 ， 更 多 的 人 依赖 这 样 的 系统 生活 和 理财 ， 
但 一 些 观察 者 已 发 现在 这 个 领域 里 安全 方面 的 进步 速度 远 低 于 技术 创新 。 

最 后 ， 无 线 信号 本 身 渗 透 到 发 射 天 线 周围 的 空间 ， 这 些 信 和 号 时 常会 返回 来 ， 进 入 产生 它 的 
系统 ， 成 为 系统 中 的 总 线 和 连接 线 上 电 噪 声 的 主要 来 源 。 这 就 是 电磁 干扰 问题 ， 即 EMI。 最 近 
的 研究 发 现 它 是 影响 系统 稳定 性 的 重要 因素 。 

对 计算 机 系统 设计 者 而 言 有 两 个 主要 问题 。 第 一 个 问题 ， 任 何 一 个 电子 系统 都 是 一 个 潜在 
的 EMI 源 。 不 同 的 总 线 设 计 会 引起 不 同 级 别 的 EMI。 例 如 ，ISA 总 线 因 其 电压 变化 幅度 较 大 且 
不 平衡 的 特质 ， 会 比 LDVS 总 线 产 生 更 大 的 电磁 干扰 。 不 同 的 存储 器 技术 也 会 产生 差异 很 大 的 
EMI。 计 算 机 系统 产生 的 EMI 会 影响 到 它 周边 的 系统 (一 些 读 者 可 能 还 记得 当 像 ZX Spectrum 
那样 的 家 用 计算 机 上 电 时 所 产生 的 EMI 会 使 得 它 旁 边 的 FM 收音 机 停止 工作 ) ， 也 会 影响 到 系 
统 中 的 其 他 部 件 。 第 二 个 问题 ， 舱 人 式 系统 设计 者 应 当 考 虑 将 系统 设计 成 为 像 ZX Spectrum 那 
样 在 有 干扰 的 环境 下 也 能 够 工作 。 设 计 这 样 系统 的 方法 不 属于 计算 机 体系 结构 的 范围 ， 因 此 在 
本 书 中 不 详细 讨论 。 在 关于 电路 设计 和 PCB 布局 布线 的 文章 和 书籍 中 会 涵盖 相关 内 容 。 


6.7 小结 
对 于 搭建 一 个 计算 机 而 言 ， 有 一 个 计算 能 力 很 强 的 CPU 是 很 好 的 开端 ， 但 要 想 成 功 还 取 
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决 于 





给 CPU 提供 数据 以 及 向 外 部 输出 结果 的 方法 。 无 用 的 输入 数据 将 会 导致 无 用 的 输出 数据 ， 


这 是 一 条 计算 的 公理 。 而 这 条 公理 不 仅 适 用 于 数据 的 质量 ， 也 适用 于 数据 的 数量 和 实时 性 。 


本 章 中 我 们 讨论 了 计算 机 接口 ， 尤 其 是 使 用 内 部 和 外 部 总 线 传递 信息 。 所 有 计算 机 ， 无 论 


是 占据 一 个 房间 的 大 型 机 还 是 嵌入 在 一 个 药片 中 的 微型 医疗 诊断 计算 机 ， 都 要 求 通过 总 线 完成 
通信 。 虽 然 存 在 大 量 标准 总 线 ， 但 还 在 不 断 涌现 出 更 多 总 线 (而 且 没 有 什么 可 以 阻挡 工程 师 设 
计 他 们 自己 的 总 线 ) 。 


本 章 我 们 讨论 了 与 总 线 相关 的 两 个 话题 : 一 是 对 于 当今 以 人 为 中 心 的 嵌入 式 系统 非常 重要 


的 实时 性 问题 ; 二 是 用 于 嵌入 式 计算 器 件 的 无 线 技术 。 


至 此 ， 我 们 已 经 完成 了 关于 计算 机 体系 结构 的 讨论 。 在 后 续 章 节 中 ， 我 们 将 重点 转向 实际 


应 用 这 些 技术 。 


6.1 


6.2 


6.3 


6.4 


6.5 


6.6 


6.7 


一 个 嵌入 式 40MHz 主 频 的 CISC CPU， 最 慢 的 指令 (除法 ) 需要 100 个 时 钟 周期 完成 。 最 快 的 指令 

(分 支 ) 只 需要 2 个 时 钟 周期 。 有 两 个 中 断 引 脚 分 别 对 应 于 高 优先 级 中 断 ( HIQ) 和 低 优先 级 中 断 

(LIQ)。 一 旦 中 断 引 脚 有 效 ， 需要 4 个 时 钟 周 期 发 现 中 断 并 开始 进入 一 个 到 中 断 向 量 表 的 分 支 。 假 

设 其 他 中 断 不 启用 ， 且 中 断 必须 等 待 当前 指令 执行 完 才 能 够 被 服务 。 

a. 计算 最 坏 情 况 下 HIQ 中 断 的 响应 时 间 ， 计 时 从 中 断 引 脚 有 效 开 始 ， 直 到 转 到 包含 在 中 断 向 量 表 
中 的 ISR。 

b. HIQ 的 ISR 要 求 10ms 完成 执行 (从 HIQ 引 脚 有 效 开 始 测量 的 最 坏 情 况 ) 。 最 坏 情况 下 LIQ 的 响 
应 时 间 是 多 少 ? 


问题 6. 1 中 的 CPU 包含 16 个 通用 寄存 器 。 描 述 可 以 在 CPU 设计 中 用 来 从 减少 上 下 文保 存 和 恢复 时 
间 的 角度 改进 ISR 性 能 的 硬件 技术 。 

从 影响 中 断 响应 时 间 的 角度 评价 以 下 四 种 技术 : 

a. 虚拟 存储 器 


b. 基于 堆栈 的 处 理 需 

c，RISC 而 不 是 CISC 设计 

d. 较 长 的 CPU 流水 线 

确定 下 列 系统 的 实时 性 要 求 ， 确 定 每 个 实时 输入 输出 是 硬 实时 还 是 软 实时 : 

a 便携 式 MP3 播放 器 

b. 装 在 家 用 汽车 上 的 防 抱 死 刹车 系统 

c 火灾 报警 控制 和 显示 控制 台 

d. 台式 个 人 计算 机 

画 出 一 个 连接 到 100MHz 处 理 器 上 的 Flash 存储 器 件 的 总 线 工作 图 。Flash 存储 器 说 明 书 给 出 以 下 
信息 : 

。 40ns 存 取 时 间 

。 20ns 的 保持 时 间 

。 20ns 的 地 址 选择 时 间 

一 个 实时 嵌入 式 系统 监控 一 个 压力 容器 中 的 温度 。 如 果 温 度 超过 某 个 值 ， 系 统 必须 以 1Hz 闪烁 报警 
灯 并 且 打 开 一 个 减 压 阀 。 系 统 每 隔 100ms 从 一 个 串 行 线 上 读 一 次 温度 ， 然 后 用 10ms 左右 将 从 串 行 
线 上 读 取 的 数据 解码 成 温度 值 。 在 最 坏 情 况 下 ， 温 度 可 以 在 150ms 内 达到 引起 爆炸 的 温度 。 

如 果 三 个 输入 输出 信号 ( 串 行 温度 输入 ， 脉 冲 报警 灯 输 出 ,， 减 压 阀 控 制 ) 分 别 由 不 同 的 任务 处 理 ， 
确定 每 一 个 任务 的 时 间 范 围 并 给 出 它们 的 硬 实时 程度 。 

考虑 表 6-1 给 出 的 PC104 接口 及 其 引 脚 定义 。 在 一 个 实现 了 整个 连接 集合 的 能 入 式 系统 中 ， 数 据 总 
线 宽 度 是 多 少 ? 当 使 用 扩展 连接 器 J2/P2 时 ， 系 统 有 一 条 扩展 地 址 总 线 。 计 算 所 允许 的 最 大 寻 址 空 
间 ， 以 MiB 为 单位 。 
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6.8 


6.9 


6.10 


在 LVDS ( 低 电 压 差分 信号 ) 方案 中 ， 从 表示 逻辑 0 到 表示 逮 辑 1 的 电压 摆 幅 远 小 于 其 他 信和 号 格式 。 
例如 ，EIA232 (RS232) 中 好 辑 0 和 逻辑 1 之 间 的 压 差 为 12V， 而 许多 LVDS 驱动 器 只 输出 0.25V 
的 压 差 。 这 是 否 意 味 着 在 电气 噪声 较 高 的 系统 中 EIA232 是 更 可 靠 的 选择 ? 对 你 的 回答 给 出 说 明 。 
将 6.3.5 节 中 关于 以 太 网 驱动 器 的 部 分 与 附录 B 中 介绍 的 OSI 层次 模型 关联 起 来 描述 (尽管 实际 上 
通常 使 用 以 太 网 的 TCP/IP 网 络 系统 采用 了 与 OSI 模型 稍 有 不 同 的 层次 架构 ) 。 

一 个 简单 的 抢占 式 多 任务 嵌入 式 计 算 机 执行 三 个 任务 一 一 T1、T2、T3， 它 们 按 顺序 优先 (优先 级 
最 高 者 先 执行 ) 。 任 务 T1 需要 lms 的 CPU 时 间 ， 每 10ms 触发 一 次 ， 且 必须 在 后 一 次 触发 前 完成 。 
任务 T2 需要 3ms 的 CPU 时 间 ， 每 9ms 触发 一 次 ， 且 必须 在 被 触发 后 8ms 内 完成 。 任 务 T3 要 求 
lms 的 CPU 时 间 ， 每 6ms 触发 一 次 且 必 须 在 被 触发 后 4ms 内 完成 。 

假设 所 有 的 任务 在 时 间 :=0 时 被 触发 ， 画 出 一 个 该 系统 调度 图 (类 似 于 图 6-5) ， 在 横 轴 上 以 ms 
标注 时 间 ， 从 时 间 ! =0 到 上 =40ms。 从 所 示 的 时 间 间 隔 来 看 ， 判 断 是 否 所 有 任务 能 够 满足 它们 的 
时 限 。 

重复 问题 6.10。 所 不 同 的 是 任务 采用 频 度 单调 调度 。 就 各 个 任务 在 第 一 个 1=40ms 的 区 间 内 满足 
时 限 的 要 求 而 言 这 种 改动 带 来 什么 不 同 吗 ? 

一 种 消费 电子 设备 需要 一 种 小 尺寸 、 低 功 耗 、 中 等 速度 的 CPU 控制 器 。 讨 论 采用 并 行 连接 的 数据 
存储 器 系统 还 是 串 行 连接 的 数据 存储 器 系统 更 适合 。 

如 果 变 化 一 下 问题 6. 12 所 述 的 系统 要 求 ， 使 得 性 能 和 速度 比 尺寸 和 功 耗 更 重要 ， 是 否 会 影响 你 对 
总 线 的 选择 ? 

如 图 6-9 所 示 为 Atmel AT29LV512 Flash 存储 器 (内存) 设备 时 序 图 。 其 中 的 时 间 参 数 来 源 于 At- 
mel 器 件 手册 。 2 
























含义 最 小 值 最 大 值 
访问 时 间 (地 址 有 效 到 输出 延迟 ) 一 120ns 
nCE 到 输出 延迟 一 120ns 
nOE 到 输出 延迟 Ons S50ns 
nCE 或 n0E2 了 撤销 到 输出 Hi-Z Ons 30ns 
输出 保持 地 址 ，nCE 或 者 nOE2 Ons 一 





@D 从 其 中 任何 一 个 被 设置 为 无 效 时 开始 
回 当 其 中 任何 一 个 被 设置 为 无 效 或 变化 时 开始 
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6.18 
6.19 
6.20 





假设 若 某 个 值 没有 给 定 ， 则 该 值 不 重要 。 该 时 序 图 是 从 某 个 外 部 设备 (如 CPU) 读 闪 存 的 角度 给 
出 的 。 它 给 出 了 CPU 为 正确 地 读 闪 存 所 必须 遵循 的 时 序 。 

此 处 的 问题 是 ， 确 定 如 何 设置 S3C2410 并 行 接口 时 序 寄存 器 以 保证 它 能 够 正确 存 取 并 行 连接 其 上 
的 Atmel AT29LV512 器 件 。 这 将 需要 仔细 阅读 6.2 节 〈 以 及 框 6.2)。 注 意 HCLK 信号 〈 即 总 线 时 
钟 ) 的 工作 频率 为 100MHz， 而 Atmel 芯片 启动 信号 nCE 连接 在 S3C2410 的 nGCS 信号 线 上 。 

下 表 给 出 了 需要 确定 的 设置 (注意 ， 此 例 中 我 们 忽略 了 页 模式 存 取 周期 ) 。 


























信号 含义 周期 数 
Tacs 地 址 建立 到 nGCS 有 效 (0，1, 2 或 4 个 周期 ) 
Teos 芯片 选择 设置 时 间 到 nOE (0，1，2 或 4 个 周期 ) | 
Tacc 访问 周期 (1，2, 3, 4，6,， 8，10 或 14 个 周期 ) 
- Teoh nOE 无 效 后 片 选 的 保持 时 间 (0，1, 2 或 4 个 周期 ) 
Teah nGCS 无 效 后 地 址 的 保持 时 间 (0，1，2 或 4 个 周期 ) 





确定 问题 6. 14 中 读 单 个 字 的 操作 在 最 坏 情 况 下 的 时 间 ， 同 时 对 一 个 更 为 现代 的 闪存 重复 该 计算 ， 

该 存储 器 的 存 取 时 间 为 5S5ns，tcr =55ns。 

Atmel AT25DF041A 是 一 个 4Mbit 的 串 行 闪存 ， 使 用 SPI 接口 ， 最 高 工作 频率 为 70MHz。 从 选 定 的 

AT25DF 器 件 上 读 一 个 字 节 需要 作为 控制 器 的 CPU 首先 输出 一 个 读 命令 〈 即 字 节 0x0B) ， 紧 接着 

是 一 个 24bit 地 址 ， 然 后 跟着 一 个 空 空 字 节 。 这 些 域 均 按照 时 钟 串 行 输出 ， 串 行 输出 引 脚 的 最 高 频率 

为 70MHz。 假 设 CPU 不 停止 SPI 时 钟 ， 该 器 件 将 在 随后 的 8 个 周期 里 顺序 输出 存储 在 该 地 址 上 的 

字 节 给 CPU。 

确定 一 个 读 字 节 的 操作 总 共 需 要 多 少时 钟 周 期 ， 并 确定 从 该 器 件 上 读 一 个 字 节 的 最 小 时 间 长 度 。 

简单 计算 一 下 问题 6. 14 中 AT29LV512 器 件 上 的 读 操 作 要 快 多 少 倍 ? 

注意 : 值得 提醒 的 是 这 样 的 比较 不 是 很 公平 。 首先， 当 读 一 连 串 存储 单元 时 两 个 器 件 都 会 更 有 效 ，SPI 器 件 尤 

其 如 此 。 其 次 ，SPI 器 件 还 有 更 为 快速 的 读 命令 ,而 我 们 没有 用 到 ， 该 命令 为 0x03 而 不 是 0x0B，0x03 
命令 不 需要 在 地 址 最 后 一 位 输出 之 后 插入 空 字 节 ， 不 过 该 模式 只 适用 于 最 高 工作 频率 为 33MHz 的 情况 。 

将 下 列 应 用 (a~e) 与 适当 的 总 线 技 术 相 匹配 ， 主 要 考虑 带宽 、 延 时 、 功 耗 、 内 外 计算 机 通信 、 

连 线 数 、 抗 噪声 干扰 、 距 离 等 。 

a. 一 个 便于 残疾 人 用 户 打开 和 关闭 滑动 窗户 的 设备 被 连接 到 一 个 戏 入 式 计算 机 上 ， 且 在 窗户 被 打 
开 时 ， 会 有 一 个 LED 用 于 报警 。 

b. 嵌入 式 计算 机 内 置 有 图 形 输 出 器 件 ， 它 完成 从 CPU 以 1.8Gbit/s 的 速率 输出 视频 数据 。 

c. 工业 自动 化 计算 机 需要 将 位 于 500m 外 的 传感器 穿 过 充满 噪声 的 电气 工厂 连接 到 计算 机 〈 此 处 
由 于 干扰 无 线 设 备 不 能 工作 ) 。 传 感 器 以 每 秒 几 十 个 Kbit 的 速率 返回 温度 数据 。 

d. 一 个 FPGA 协 处 理 器 内 置 在 x86 处 理 器 系统 中 以 尽 可 能 快 的 速度 传输 大 量 数据 。 

e. 一 台 小 尺寸 嵌入 式 工业 PC 需要 一 个 连接 20 个 模 数 转换 器 (ADC) 的 外 设 卡 ， 总 的 数据 速率 为 
6MiB/s。 

针对 这 5 个 应 用 ， 有 5 个 总 线 技术 供 选 择 ， 应 用 对 应 一 个 技术 。 

® AGP 4x 

e USB 1.1 

。 PC/104(16 位 ISA) 

。 16x PCIe(16 通道 PCI 增强 版 ) 

e EIA422 

哪 5 个 时 间 参 数 能 够 描述 实时 系统 中 一 个 任务 的 时 序 特征 ? 

给 出 当 在 舱 入 式 CPU 中 断 发 生 时 一 般 的 操作 序列 。 

描述 像 ARM 这 样 的 只 有 单个 通用 中 断 信 号 (IRQ) 的 处 理 器 若 要 实现 中 断 共 享 所 必需 的 硬件 。 注 

意 这 可 能 增加 中 断 服务 例 程 的 额外 开销 。 
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实用 谍 入 式 CPU 





7.1 概述 

几 十 年 来 计算 机 体系 结构 一 直 作 为 一 门 学 术 研究 学 科 ， 并 被 传授 给 数 代 工 程 专业 学 生 。 计 
算 机 体系 结构 随 着 硬件 的 发 展 而 更 新 ， 但 它 作 为 课程 被 教授 给 学 生 时 往往 落后 十 几 年 。 在 大 型 
计算 机 时 代 ， 课 程 内 容 滞后 十 几 年 并 没有 什么 ， 而 在 个 人 计算 机 时 代 如 此 滞后 就 带 来 了 一 些 问 
题 。 随 后 ， 智 能 手机 成 为 计算 机 科技 的 前 沿 。 

还 记得 20 世纪 90 年 代 早期 ， 我 在 学 校 时 学 习 的 是 8086、6502 和 Z80， 而 当时 我 已 使 用 第 一 代 
ARM 台式 机 (在 那个 年 代 它 是 非常 快 的 ) 。 奇 怪 的 是 ， 这 种 课程 滞后 很 多 年 来 依然 如 故 ， 这 表现 
为 准备 到 众人 式 系 统 或 消费 电子 领域 工作 的 学 生 ， 所 接受 的 教育 却 是 更 适合 大 型 计算 机 领域 的 。 

本 书 的 目的 有 所 不 同一 一 对 大 型 机 相关 技术 只 是 简要 概述 ， 而 对 嵌入 式 系统 工程 师 感 兴趣 的 
技术 进行 深入 介绍 ， 把 重点 放 在 实用 性 上 ， 鼓 励 读者 将 学 到 的 知识 应 用 于 实际 。 

截至 目前 ， 本 书 所 讲 内 容 还 属于 基础 和 理论 方面 的 。 而 从 本 章 开始 ,我 们 进入 实践 部 分 ， 
开始 探索 嵌入 式 系 统 的 现实 世界 。 我 们 分 析 为 了 使 现实 中 的 嵌入 式 计算 机 工作 需要 做 什么 ， 因 
此 要 跨越 租 入 式 计 算 机 体系 结构 的 理论 和 现实 之 间 的 鸿沟 。 


7.2 微 处 理 器 不 只 是 核 


在 家 庭 和 工作 场所 使 用 的 众多 藤 和 人 式 系统 中 ， 一 款 十 分 受 欢迎 的 微 处 理 器 就 是 我 们 前 面 提 到 
过 的 三 星 生产 的 32 位 的 S3C2410。 让 我 们 来 看 一 下 这 个 小 小 的 ARM9 设备 ， 了 解 一 下 它 的 特性 : 
e。 1.8V/2.0V 的 ARM9 处 理 器 核 ， 最 高 工作 频率 为 200MHz。 
e。 16KiB 指令 缓存 和 16KiB 数据 缓存 。 
内 部 MMU( 内存 管理 单元 ) 。 
用 于 外 部 SDRAM( 同步 动态 随机 存 取 存储 器 ) 的 存储 控制 器 。 
彩色 LCD( 液 晶 显示 ) 控制 器 。 
带 有 外 部 请 求 引 脚 的 4 路 DMA( 直接 存储 器 存 取 ) 机 制 。 
3 路 UART( 通 用 异步 收发 器 ) ， 支 持 TDA1. 0，16 字 节 发 送 缓存 和 16 字 节 接收 缓存 。 
2 路 SPI( 串 行 外 部 设备 接口 ) 。 
1 路 多 主 IC( 内 置 集 成 电路 ) 总 线 驱 动 器 和 控制 器 。 
SD( 安 全 数位 卡 ) 和 MMC (多 媒体 卡 ) 接口 。 
双 端 口 USB( 通 用 串 行 总 线 ) 主机 加 上 单 端口 USB 器 件 (1. 1 版 本 ) 。 
4 通道 PWM( 脉冲 宽度 调制 ) 时 钟 。 
内 部 时 钟 。 
看 门 狗 定 时 器 。 
117 位 通用 WO( 输 入 /输出 ) 端口 。 
24 路 外 部 中 断 源 。 
功 耗 控 制 ， 包 括 常态 、 慢 速 态 、 空 闲 态 和 电源 关闭 态 。 
8 路 10 位 ADC( 模 数 转换 ) 和 触摸 屏 接口 。 
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。 实时 钟表 ， 带 有 日 历 功 能 。 

。 片上 时 钟 生 成 器 。 

S3C2410 是 一 款 功 能 很 丰富 的 器 件 ， 适 用 于 骨 入 式 系 统 ， 因 此 至 今 为 止 一 直 被 工业 界 开 发 
者 使 用 。 正 如 我 们 在 6. 1 节 所 见 ， 这 种 芯片 有 时 称 为 片上 系统 (SoC) “处 理 器 ， 其 特征 是 包含 
许多 外 设 单元 。 处 于 系统 中 心 的 核 是 ARM 处 理 器 ， 其 他 ARM9 系统 也 是 如 此 。 

虽然 三 星 没有 给 出 有 关 S3C2410 中 各 个 单元 的 尺寸 以 及 它们 在 芯片 中 的 布局 等 细节 ， 我 们 
还 是 可 以 估计 出 其 中 缓存 所 占 的 芯片 面积 最 大 。 占 据 芯 片面 积 仅 次 于 缓存 的 是 CPU 核 。 其 他 
较 大 的 单元 是 MMU、SDRAM 存储 控制 器 和 ADC。 

在 早期 集成 电路 中 ，CPU 是 一 块 单独 的 芯片 ， 集 成 了 许多 以 前 离散 分 布 的 单元 。 随 着 时 间 
的 推移 ， 越 来 越 多 的 功能 被 集成 到 这 样 的 器 件 中 。 对 于 舱 入 式 系 统 而 言 ， 半 导体 厂商 已 经 意识 
到 设计 者 喜欢 尽 可 能 少 地 使 用 单独 的 器 件 ， 因 此 片上 系统 提供 了 许多 功能 。 在 任何 一 个 散 入 式 
系统 设计 中 ， 并 不 会 用 到 所 有 的 功能 ， 但 至 少 会 需要 其 中 一 部 分 。 使 用 这 种 高 集成 度 的 片上 系 
统 意味 着 具有 以 下 设计 特点 : 

1) 降低 芯片 门 数 就 会 降低 面积 ， 因 此 通常 也 会 降低 产品 成 本 。 

2) 当 挑 选 一 款 SoC 时 ， 设 计 者 首先 要 列 出 需要 的 功能 ， 然 后 挑选 与 此 尽量 匹配 的 器 件 。 
没有 包含 在 该 芯片 中 的 功能 可 以 通过 外 接 方法 实现 。 

3) 一 些 硬件 功能 可 以 通过 软件 有 效 实 现 ， 这 时 设计 人 员 面 临 的 问题 是 “如 何 使 用 片上 外 
设 ”， 而 不 是 “如 何 用 硬件 实现 这 个 功能 ”。 

4) 有 时 ， 有 限 的 片上 功能 可 能 会 制约 产品 的 功能 ， 而 改变 外 部 实现 的 功能 要 比 改变 片 内 
实现 简单 。 

5) 设计 者 现在 不 得 不 通读 超过 1000 页 的 CPU 数据 手册 ， 而 关键 细节 很 有 可 能 藏 在 第 991 
页 的 脚注 中 。 

6) 一 些 功能 不 能 共存 。 例 如 ， 功 能 表 中 说 既 提供 了 IC 也 提供 了 UART 支持 ， 但 忘记 说 明 在 一 
个 时 刻 只 能 支持 其 中 一 种 功能 ， 原 因 可 能 是 没有 足够 的 引 脚 ， 或 没有 足够 的 内 部 串 行 硬件 支持 。 

主流 处 理 器 倾向 于 将 较 多 的 硅 面 积 用 于 高 速 缓存 而 不 是 CPU 常规 功能 ， 因 为 高 速 缓存 被 
看 作 改 进 处 理 器 性 能 的 最 好 方法 。 以 64 位 VIA Isaiah 体系 结构 (又 叫 作 VIA Nano) 为 例 ， 这 
是 一 种 近来 出 现 的 x86 兼容 处 理 器 ， 如 图 7-1 所 示 ， 其 中 最 大 部 分 的 硅 面 积 用 于 高 速 缓存 ， 其 











图 7-1 VIA Isaiah 体系 结构 ， 一 个 低 功 耗 x86 型 CPU， 特 别 适合 笔记 本 计算 机 之 类 的 移动 计算 应 用 ， 图 
中 给 出 了 各 器 件 在 硅 片 内 部 的 安排 ( 本 照片 和 结构 图 由 VIA 公司 提供 ) 。a) 芯片 照片 ， 显 示 了 
功能 区 域 块 ; b) 芯片 面积 对 应 的 功能 区 域 方 框图 





日 、 较 小 的 SoC 系统 有 时 也 称 为 单 片 微 处 理 器 或 单 片 微 控制 器 。 
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他 部 分 还 包括 一 些 独 立 模 块 ， 分 别 用 于 时 钟 生成 ( 锁 相 环 ，PLL) 、 高 速 浮 点 (FP)、SIMD 体 
系 结构 (该 器 件 支持 在 4.7.4 节 讨 论 过 的 SSE-3 扩展 指令 ， 因 此 它 与 浮 点 运算 单元 FPU 并 行 排 
列 ) 。 其 他 有 趣 的 模块 还 包括 用 于 加 密 处 理 的 模块 、 用 于 乱 序 执行 的 重 排序 缓冲 器 (ROB ) 、 
在 据说 长 度 为 十 几 级 的 流水 线 末端 的 扩展 分 支 预测 与 硬件 回 退 (retirement hardware) ， 还 包括 2 
个 64 位 整数 单元 (IU) 、3 个 取 数 - 存 数 单元 以 及 存储 重 排序 缓冲 器 (MOB)。 顶 部 和 底部 
Pad 用 于 连接 内 部 电路 和 集成 电路 封装 焊 点 。 这 个 采用 65nm 工艺 实现 的 器 件 有 64KiB 一 级 组 
存 和 1MiB 二 级 缓存 ,使 用 了 大 约 9400 万 个 晶体 管 。 对 比 一 下 台式 计算 机 /服务 器 中 的 CPU ， 
AMD 的 四 核 Phenom 有 4. 5 亿 个 晶体 管 ， 它 还 包括 2MiB 三 级 缓存 ， 如 图 7-2 所 示 。 





图 7-2 AMD Phenom 衬 四 核 处 理 器 芯片 。 其 中 对 称 的 水 平和 垂直 线 将 芯片 分 成 4 个 核 。 器 件 顶 部 和 底部 
的 非 对 称 条 是 双 速 率 随机 存 取 存储 器 接口 和 2MiB 共享 三 级 缓存 。 中 间 垂 直方 向 的 长 方形 是 用 于 
连接 4 个 核 的 总 线 桥接 系统 ， 而 左右 两 侧 的 是 物理 接口 (本 照片 由 AMD 公司 提供 ) 


7.3 功能 需求 

在 许多 系统 中 ， 有 些 功能 属于 有 则 更 好 ， 而 有 些 是 必需 的 。 确 定 一 个 功能 在 SoC 中 属于 哪 
一 类 取决 于 它 所 面向 的 应 用 领域 。 例 如 ， 一 个 系统 可 能 要 求 串 口 ， 而 另 一 个 系统 则 要 求 SPI。 

正 因为 如 此 ，SoC 厂家 在 定义 什么 是 必需 的 功能 这 一 点 上 不 能 达成 一 致意 见 ， 而 由 此 产生 
的 产品 变化 对 于 我 们 搜寻 适合 谋 和 自己 的 设计 中 的 器 件 是 一 件 好 事 。 事 实 上 ， 这 种 情形 也 是 消 
费 者 驱动 的 : 一 个 能 够 卖 出 几 百 万 产品 的 公司 有 能 力 说服 半 导体 厂家 设计 他 们 所 需 的 芯片 ， 而 
小 的 独立 设计 者 却 很 难 要 求 半导体 厂家 为 他 们 增加 特定 外 设 。 

然而 ， 有 一 两 种 外 设 被 认为 是 必需 的 ， 且 在 几乎 所 有 的 主流 SoC 处 理 器 中 都 可 以 见 到 。 

1) 复位 电路 〈( 见 7.11.1 节 ) 是 必需 的 ， 用 来 确保 每 一 个 器 件 启动 后 寄存 器 和 状态 处 于 预 
定 值 。 

2) 时 钟 电 路 是 必需 的 ， 用 以 将 全 局 时 钟 分 配 到 一 个 同步 设计 的 各 个 部 分 。 通 常 一 个 锁 相 
环 (Phase-Locked Loop，PLL) 或 延迟 锁定 环 ( Delay-Locked Loop，DLL) 用 于 调整 外 部 晶振 产 
生 的 振荡 以 及 调节 频率 。 

3) LO 驱动 器 连接 外 部 引 脚 ， 提 供 足 够 的 电流 在 连接 外 部 器 件 的 线 上 产生 电压 翻转 ， 同 
时 协助 防止 片 外 源 器 件 对 IC 内 部 电路 产生 静态 充电 、 短 路 和 电压 尖峰 。 许 多 器 件 带 有 通用 IO 
(GPIO) ， 它 在 方向 、 驱 动 特性 、 阔 值 等 方面 是 可 编程 的 ， 详 见 框 7. 1 中 的 讨论 。 
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4) 总 线 连接 器 也 是 与 外 部 连接 的 接口 ， 主 要 用 于 连接 外 部 存储 器 、 外 设 等 。 


一 组 VO 驱动 带 协 同 工 作 的 方式 实现 。 


5) 存储 器 本 映 既 可 以 处 于 片上 也 可 以 处 于 片 外 ,通常 组 合 使 用 存储 变量 和 堆栈 的 易 失 存 


储 器 和 存储 程序 代码 的 非 易 失 存储 器 


6) 功 耗 管理 电路 用 来 将 电源 分 派 到 整个 器 件 ， 关 闭 芯 片上 不 工作 的 部 分 等 。 
7) 调试 电路 ， 例 如 正 EE11459 JTAG， 在 多 数 情况 下 被 认为 是 非常 必需 的 ( 详 见 7.9.3 节 ) 。 


MSP430 可 配置 引 肢 


类 似 于 许多 为 嵌入 式 系统 设计 的 处 理 器 ，TI 的 MSP430 系列 具有 很 好 的 IO 引 脚 配置 能 力 。 下 面 以 


该 系列 中 MSP430F1611 为 例 来 考察 引 脚 的 可 配置 性 


















P6.5/A5 [| 
P6.6/A6/DACO [| 
P6.7/A7T/DACI1/SVSIN 
Vref+ [| 

XIN 

XOUT 0 


Vref-/Veref- | 
PI.0/TACLK 
P1.1/TA0 避 
P1.2/TAl1 
P1.3/TA2 品 
P1.4/SMCLK 








P1.7/TA2 日 
P2.0/ACLK [ 
P2.1/TAINCLK 
P2.2/CAOUT/TAO0 四 





P2.3/CAO/TA1D 
P2.4/CA1/TA2 日 


该 64 引 脚 封 装 器 件 上 除了 电源 、 地 、 参 考 电压 输入 、 
中 的 51 个 具有 可 配置 性 ， 每 一 个 复 用 多 个 功能 。 


MSP430F1611 





P2.5/Rosc [J 





LP5.7/TBOUTH/SVSOUT 


[LP5.6/ACLK 
LP5.5/SMCLK 


LP5.4/MCLK 
[| PS.3/UCLK1 
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| P4.0/TB0 
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L | P3.6/UTXD1 
LP3.5/URXDO 
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外 部 晶振 连 线 和 两 根 JTAG 引 脚 外 ，64 个 引 脚 


例如 ， 引 脚 5 用 作 GPIO 6 位 端口 6 (P6.6)， 同 时 用 作 


12 位 ADC 的 输入 信道 6 或 12 位 DAC 的 输出 信道 0， 取 决 于 器 件 使 用 者 在 软件 中 的 设置 。 


在 框 7.2 中 我 们 将 了 解 如 何 配置 引 脚 
MSP430 引 脚 控制 


框 7.1 给 出 了 TI MSP430F1611 芯片 的 引 脚 布局 ， 由 此 可 见 单 个 引 脚 可 以 具有 多 种 配置 。 事实 上 ， 这 
些 引 脚 配 置 是 在 软件 中 完成 的 。 下 面 我 们 来 看 一 下 该 机 制 是 如 何 工 作 的 。 

MSP430 有 若干 引 脚 控制 寄存 器 ， 引 脚 8 位 一 组 ， 例 如 P1.0 ~ P1.7 构成 端口 1，P2.0 ~ P2.7 构成 端 
口 2， 以 此 类 推 。 每 个 端口 的 8 个 IO 引 脚 可 以 分 别 配置 方向 ， 即 读 入 或 写 出。 在 许多 情况 下 ， 它 们 还 可 


以 用 作 中 断 源 。 让 我 们 来 看 一 下 对 应 端口 2 的 寄存 器 组 


它们 通常 以 
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寄存 器 P2DIR 是 一 个 8 位 方向 寄存 器 ， 寄 存 器 中 的 一 位 控制 着 对 应 的 引 脚 为 输入 或 输出 引 脚 。 将 0 
写 入 某 一 位 导致 其 对 应 引 脚 为 输入 引 脚 ， 而 将 1 写 入 某 一 位 导致 其 对 应 引 脚 为 输出 引 脚 。 例 如 将 0x83 写 
入 寄存 器 使 得 P2.7、P2.1 和 P2.0 为 输出 引 脚 而 其 他 为 输入 引 脚 。 

寄存 器 P2IN 是 一 个 8 位 寄存 器 ,每 一 位 代表 对 应 引 脚 上 的 输入 值 。 因 此 ， 如 果 读 该 寄存 器 的 返回 值 
为 0x09， 则 意味 着 P2.3 和 P2.0 上 的 电压 为 高 ， 其 余 引 脚 电压 为 低 。 注 意 ， 如 果 我 们 已 将 P2.0 配置 为 输 
出 引 脚 、P2.3 配置 为 输入 引 脚 ， 则 可 知 P2.0 上 输出 逻辑 高 ， 且 其 他 器 件 输入 逻辑 高 电压 给 P2. 3。 

寄存 器 P2OUT 是 另 一 个 8 位 寄存 器 ， 用 以 确定 每 一 个 配置 为 输出 的 引 脚 的 输出 电压 。 配 置 为 输入 的 
引 脚 忽略 写 入 该 寄存 器 的 值 。 

还 剩 下 一 项 需要 确定 的 配置 ， 即 是 将 这 些 引 脚 作 为 GPIO 还 是 将 它们 用 作 其 他 指定 功能 。 为 此 ， 寄 
存 器 P2SEL 被 用 来 选 通 GPIO 端口 寄存 器 和 外 设 模 块 。 当 逻辑 低 写 入 P2SEL 时 意味 着 引 脚 连接 到 GPIO 寄 
存 器 ， 而 逻辑 高 意味 着 选择 外 设 功 能 到 引 脚 。 例 如 将 0x81 写 入 P2SEL 将 实现 下 列 选 通 : 


引 脚 20 21 22 23 24 25 26 27 
功能 ACLK P2.1 P2.2 3 P2.4 P2.5 P2.6 TAO 





有 两 件 事 需要 注意 。 第 一 ， 外 设 确 切 的 功能 由 外 设 模 块 决定 ， 其 具体 配置 方法 应 在 该 设备 手册 中 说 
明 。 一 些 引 脚 有 三 种 定义 ， 其 一 通常 是 GPIO 端口 ， 另 外 两 种 是 外 设 模块 ( 引 脚 选 通 逻辑 不 能 完成 对 这 
两 种 外 设 模块 之 一 的 选择 ， 需 要 借助 于 外 设 模块 本 身 的 配置 ) 。 

第 二 ， 若 引 脚 被 配置 成 与 外 设 连接 ， 则 引 脚 方向 必须 通过 写 P2DIR 正确 设置 。 一 些 处 理 器 可 以 自动 
完成 这 种 相关 设置 ， 但 MSP430 必须 通过 程序 来 实现 。 例如， 如 果 通 过 写 P2SEL 将 某 一 引 脚 定义 为 串口 
输出 ， 则 P2DIR 的 相应 位 就 应 当 为 逻辑 1， 和 否则 ， 将 不 会 有 输出 产生 。 

多 数 器 件 还 包含 一 个 或 多 个 内 部 UART (通用 异步 收发 器 ) 或 USART (通用 同步 /异步 收 
发 器 ) ， 一 个 内 部 实时 时 钟 模块 〈《RTC) ， 几 个 时 间 计 数 器 ， 以 及 内 部 高 速 缓存 等 。 

比较 面向 不 同市 场 设计 的 CPU 是 非常 有 趣 的 事 ， 如 表 7-1 所 示 ， 所 列 三 个 广泛 用 于 艇 人 式 
系统 的 器 件 分 别 属于 三 类 处 理 器 。 单 芯片 微 处 理 器 一 一 TI 的 MSP430F1612， 功 耗 非常 低 〈 在 
最 低 用 电 模 式 下 芯片 可 以 基于 两 个 柠檬 产生 的 电力 工作 ) ， 且 内 内 了 多 种 低层 次 外 设 ， 其 设计 
目标 是 使 选择 它 的 设计 者 可 以 获得 单 芯片 解决 方案 ， 因 此 它 没 有 外 部 存储 器 接口 。 与 此 相反 ， 
三 星 S3C2410 是 一 种 基于 ARM9 的 片上 系统 ， 具 有 丰富 的 功能 ， 足 以 支持 个 人 数字 助手 
(PDA) 、 智 能 手机 等 应 用 。 它 不 仅 有 SDRAM 接口 ， 在 并 行 总 线 (参见 6.2 节 ) 上 可 连接 扩展 
静态 随机 存 取 存 储 器 (SRAM) 、 只 读 存 储 器 (ROM) 和 Flash， 还 提供 了 多 种 外 设 接口 一 一 万 
其 是 通信 和 内 部 连接 外 设 。 最 后 一 个 是 VIA Nano， 我们 在 7.2 节 中 介绍 过 。 某 种 意义 上 ， 尽 管 
它 为 提高 功 耗 效 率 做 了 重新 设计 ， 且 比 典 型 的 个 人 计算 机 处 理 器 尺寸 小 ， 但 它 还 是 一 种 标准 个 
人 计算 机 处 理 器 。 对 于 要 求 x86 结构 处 理 器 的 嵌入 式 系统 ， 它 可 作为 一 个 候选 。 该 器 件 主要 关 
注 于 计算 能 力 ， 强 调 低 功 耗 约束 下 的 高 性 能 。VIA Nano 有 很 多 另外 两 款 处 理 器 没有 的 外 设 ， 
当然 ， 那 两 款 处 理 器 也 可 以 通过 附加 芯片 来 提供 这 些 外 设 。 

表 7-1 从 三 类 微 处 理 器 中 选择 示例 以 比较 其 内 置 特性 : 单 芯片 微 控 制 器 、 片 上 系统 微 处 理 器 和 个 人 计 
算 机 CPU。 其 中 ，TI 的 MSP430 系列 在 写 这 本 书 的 时 候 已 有 171 个 变种 ， 每 个 都 有 特殊 的 性 质 














和 能 力 系列 中 器 件 最 高 频率 可 达 25MHz， 包 含 16KiB RAM 和 256KiB Flash， 以 及 十 分 多 样 
化 的 外 设 配置 。 相 反 ， 三 星 和 VIA 都 只 有 很 少 的 变种 器 件 
单 芯 片 微 处 理 器 SoC CPU 个 人 计算 机 CPU 
TI MSP430F1612 三 星 S3C2410 VIA Nano 
时 钟 速度 8MHz 266MHz 1. 8GHz 
功 耗 <lmW 330mW 5~25W 
封装 64 引 脚 LQEN/P 272 引 脚 FGBA 479 引 脚 BGA 





内 部 缓存 无 16KiB T+16KiB D 128KiB LI +1MiB 12 
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( 续 ) 
单 芯 片 微 处理 器 SoC CPU 个 人 计算 机 CPU 
TI MSP430F1612 三 星 S3C2410 VIA Nano 
内 部 RAM 5KiB 无 无 
内 部 Flash 55KiB 无 无 
内 部 带宽 16 位 32 位 64 位 
外 部 数据 总 线 无 32 位 64 位 
外 部 地 址 总 线 无 27 位 未 知 
存储 支持 无 ROM 到 SDRAM DDR-2 RAM 
ALU 1 1 2 
FPU 否 否 是 
SIMD 否 否 SSE-3 
乘法 器 16 位 32 位 最 高 128 位 
ADC 12 位 8x10 位 无 
DAC 2xl2 位 无 无 
RTC 否 是 否 
PWM 否 4 否 
GPIO 48 引 脚 117 引 脚 无 
USART 2 3 否 
Ee 是 是 否 
SPI 2 p 否 
USB 否 2 主 !1 设备 次 
看 门 狗 定时 器 是 是 否 
掉 电 检测 是 否 否 
时 钟 2 1 是 
JTAG 是 是 未 知 


下 面 我 们 将 比较 详细 地 讨论 一 些 CPU 必须 具备 的 功能 ， 包 括 时 钟 、 功 耗 管理 和 存储 器 。 
之 后 在 7.11 节 ， 我 们 将 了 解 一 下 器 件 复位 机 制 ， 特 别 是 看 门 狗 定时 器 、 复 位 监测 器 和 掉 电 检 
测 需 。 


7.4 时 钟 

在 3.2.4 节 中 我 们 讨论 CPU 控制 时 考虑 了 系统 时 钟 在 控制 微 操作 中 的 重要 作用 。 事 实 上 对 
于 时 钟 重要 性 我 们 强调 得 还 不 够 。 除 了 非常 少见 的 异步 处 理 器 (我们 将 在 9.4 节 中 介绍 ) 外 ， 
所 有 处 理 器 、 大 多 数 外 设 、 总 线 和 存储 设备 都 是 依赖 时 钟 同步 信号 正确 地 完成 操作 。 

CPU 功能 模块 仅 包括 组 合 逻 辑 ， 例 如 算术 逻辑 单元 ， 在 它 周 围 时 钟 尤其 重要 。 如 果 时 钟 沿 
控制 ALU 的 输入 ， 则 同一 个 时 钟 沿 不 能 够 用 来 获取 ALU 的 输出 ， 因 为 ALU 需要 一 定 的 时 间 完 
成 其 功能 。 必 须 使 用 后 一 个 时 钟 沿 ， 或 采用 两 相位 时 钟 〈 即 两 个 非 对 称 时 钟 ， 它 们 不 相互 重 
从 ， 且 两 个 沿 之 间 间 隔 大 于 时 钟 系统 中 的 最 大 组 合 逻 辑 延 时 ) 。 

实际 当中 通常 采用 一 个 时 钟 ， 但 在 时 钟 波形 的 不 同 沿 上 完成 不 同 功能 。 图 7-3 给 出 了 一 个 
例子 ， 其 中 ALU 工作 在 不 同 的 时 钟 沿 上 。 从 第 一 个 下 降 沿 开始 ,首先 〈 i ) 驱动 来 自 RO 的 单 
总 线 ， 在 第 一 个 上 升 沿 完成 〈 下) 将 输入 值 锁 存 到 第 一 个 ALU 寄存 器 且 释 放 总 线 驱动 。 之 后 ， 
( 道 ) 和 (iV) 重复 该 过 程 将 Rl 写 人 ALU 的 第 二 个 寄存 器 。( V ) 接收 到 稳定 输入 后 ALU 需 
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98] 要 一 定时 间 完 成 计算 。( Vi) 之 后 将 结果 写 人 RO。 
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1 


图 7-3 在 图 的 底部 给 出 主 时 钟 信号 ， 频 率 为 Pu = 1ZTuw。 时 钟 上 升 沿 或 下 降 沿 有 效 时 刻 是 
时 钟 信号 通过 立 值 电压 的 时 候 (如 图 中 虚线 所 示 )。 注 意 时 钟 信号 沿 不 是 完全 垂直 的 ， 即 有 时 
钟 上 升 时 间 和 下 降 时 间 。 事 实 上 ， 在 每 个 周期 时 钟 通过 阔 值 的 时 刻 会 有 一 点 差异 ， 其 原因 来 自 





图 7-3 不 同 的 门 和 锁 存 器 驱动 ALU 与 CPU 时 钟 单 沿 同步 ， 类 似 于 图 3-3 的 周期 级 时 序 图 。 
所 完成 的 操作 为 RO = RO + R1， 分 为 6 个 顺序 阶段 完成 

拌 动 也 会 因为 立 值 电压 的 变化 而 产生 (通常 国 值 电压 保持 不 变 , 但 时 钟 电压 会 随时 间 慢 慢 
变化 ) 。 反 过 来 ， 抖 动 会 导致 每 个 周期 的 T 值 不 相等 。 显 然 ， 必 须 选 择 能 够 满足 信号 有 足够 时 
间 通 过 ALU 的 时 钟 频 率 ， 而 抖动 偶尔 会 引起 时 钟 周期 变 短 ， 从 而 导致 ALU 结果 不 能 按时 准备 
好 ， 以 致 发 生 错误 行为 。 

因而 ， 时 钟 集成 十 分 重要 ， 且 大 多 数 系统 时 钟 低 于 可 以 达到 的 最 快 时 钟 周期 。 这 意味 着 如 
果 有 非常 稳定 的 时 钟 和 供电 电压 ， 系 统 实际 可 操作 在 快 于 它们 标定 的 时 钟 频率 上 (这 也 是 多 年 
来 个 人 计算 机 中 普遍 使 用 CPU 超频 率 工作 的 原因 ) 。 


时 钟 生成 

近来 ,多数 CPU 和 SoC 中 的 处 理 器 在 外 部 连接 的 时 钟 晶 振 的 基础 上 产生 内 部 时 钟 频率 ， 
最 多 仅 需 要 两 个 很 小 的 外 部 耦合 电容 。 

为 了 产生 内 部 时 钟 ， 这 些 当代 流行 的 器 件 中 必须 包含 锁 相 环 电路 以 根据 原 外 部 时 钟 产生 内 
部 时 钟 ， 通 常 还 包括 内 部 分 频 器 和 乘法 器 硬件 。 例 如 ,三星 S3C2410 采用 12MHz 外 部 时 钟 产 
生 266MHz 内 部 时 钟 (事实 上 ， 时 钟 分 频 寄存 器 允许 在 一 个 特定 外 部 晶振 的 基础 上 产生 多 个 操 
作 频 率 ) 。 

延迟 锁定 环 技术 与 此 类 似 ， 只 是 灵活 性 较 小 且 精 度 较 低 ， 但 制造 简单 、 成 本 低廉 。 注 意 当 
频率 适当 时 ， 也 可 以 将 外 部 晶振 信号 直接 输入 CPU 中 使 用 。 

当前 一 些 系统 要 求实 时 时 钟 ， 一 般 是 通过 单独 的 32. 768kHz 外 部 晶振 (以 及 独立 的 PLL) 
提供 的 。32. 768kHz 晶振 器 件 很 便宜 ， 而 且 很 小 。 该 晶振 常用 于 钟表 ， 因 为 该 信号 经 分 频 2 次 
后 可 以 产生 1s 的 定时 脉冲 ， 用 来 驱动 钟表 和 日 历 电路 〈( 记 作 1pps 或 每 秒 一 个 脉冲 ) 。 

虽然 可 以 使 用 很 多 精准 晶振 ， 例 如 用 于 射频 电路 的 恒温 晶振 (OCXO ) ， 但 大 多 数 微 处 理 
器 使 用 标准 石英 晶振 或 陶瓷 谐振 器 。 它 们 的 准确 率 大 约 100ppm (每 百 万 中 的 份 数 ) ， 等 价 于 
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0. 0001% ， 相 当 于 最 坏 情况 下 每 年 小 于 1h 的 误差 。 稍 微 贵 些 的 晶振 很 容易 就 可 以 达到 10ppm 
精度 ， 而 OCXO 可 以 达到 的 精度 在 1ppm 分 之 几 的 范围 。 


7.5 时 钟 与 功 耗 
当 阅 读 CPU 数据 手册 时 ， 经 常 可 以 发 现时 钟 和 Va 

功 耗 控制 在 同一 章 介 绍 的 情况 ,很 多 情况 下 ， 系 统 

控制 寄存 器 也 在 其 中 。 这 样 做 的 原因 在 于 时 钟 是 导 

致 CPU 内 部 功率 消耗 最 直接 的 因素 。 ad 
让 我 们 花 点 时 间 来 回顾 一 下 现代 CMOS ( Com- 

plementary Metal Oxide Semiconductor， 互 补 金 属 氧 化 

物 半 导体 ) 中 的 功 耗 原理 。 我 们 暂时 不 深入 研究 半 

导体 理论 ， 先 考虑 一 个 简单 的 门 ， 比 如 说 如 图 7-4 所 

示 的 与 非 门 (NAND) 结构 。CMOS 这 一 名 称 中 的 4 

“互补 ”含义 就 是 因为 该 结构 的 输出 可 以 通过 晶体 管 

连接 到 V、( 负 极 电 压 ) 上 ， 也 可 以 连接 到 V,，( 电 

源 电压 ) 上 。 9 
在 理想 情况 下 ，CMOS 系统 连接 到 V.. 或 者 Vs 上 

的 输出 是 没有 电阻 的 ， 但 是 我 们 知道 在 现实 世界 中 0 

电阻 是 不 存在 的 ， 导 线 上 存在 电阻 ,或 者 存在 漏 源 


ANANDB 


输出 电容 


V V。 


$s 


图 7-4 利用 CMOS 门 来 设计 一 个 与 非 电 


电阻 等 。 这 些 电 阻 所 导致 的 结 果 就 是 限制 了 从 V. 或 
路 , 可 以 看 到 MOS 晶体 管 直接 
者 Vu 中 流出 或 流入 的 电流 ， 因 而 也 要 花费 些 时 间 来 Peasant te 
充满 输出 电容 。 当 门 从 一 个 状态 跳 到 另外 一 个 状态 ， 输出 电容 器 用 来 反映 NAND 输出 
电流 就 会 被 激发 ， 也 就 是 要 充满 输出 电容 或 者 释放 的 电容 负载 


输出 电容 。 随 着 充 放电 流 的 改变 ,电容 电压 也 随 着 升 高 或 者 降低 。 这 可 以 从 图 7-5 中 很 清晰 地 
看 到 ， 其 中 CMOS 门 用 一 个 理想 开关 来 替代 。 最 重要 的 是 图 底部 的 逻辑 值 输出 : 在 一 个 数字 电 
路 中 ， 从 一 个 事件 发 生 〈 比 如 说 开关 位 置 改 变 ) 到 输出 逻辑 值 稳定 的 时 间 ， 叫 作 传输 延迟 ， 
这 个 概念 我 们 曾 在 2. 4. 2 节 讨 论 进位 延迟 加 法 器 时 讨论 过 。 


Va 





| sw:| Otol et lto0 sw:! 0to 1l 时 间 
logic 2 
Vs Vs 不 定 值 态 
logic 0 
图 7-5 左 图 所 示 为 电容 里 的 切换 电压 ， 它 需要 一 定 的 时 间 来 充电 和 放电 ， 如 右 图 中 曲线 所 示 ， 电 容 电 
压 会 随 着 开关 位 置 的 改变 而 发 生变 化 。 注 意 逻 辑 电压 的 Vs 和 Vu 阔 值 ， 图 中 的 底部 折线 显示 了 
电容 电压 的 逻辑 值 随 时 间 的 变化 
事实 情况 远 比 我 们 所 说 的 复杂 ， 在 所 有 的 硅 门 中 均 有 寄生 电容 存在 ， 在 各 种 导线 及 门 连接 中 也 
有 寄生 电阻 存在 ， 甚 至 存在 寄生 电感 。 这 样 ， 就 使 得 我 们 前 面 所 讨论 的 负载 电容 问题 更 为 严重 。 
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理解 了 系统 中 电容 的 基本 问题 后 ， 我 们 要 注意 到 两 个 重要 的 概念 : 
。 传输 延迟 ， 是 指 通过 小 电阻 的 导线 和 导电 硅 片 对 电容 进行 充 放电 时 所 花费 的 时 间 。 
。 门 切换 所 产生 的 电流 ， 是 由 于 在 充 放电 时 必须 有 电流 经 过 电容 器 。 


7.5.1 传输 延迟 


为 了 降低 传输 延迟 ， 硅 片 设计 者 可 以 使 用 多 种 方法 : 可 以 降低 电容 (通过 设计 更 小 的 门 ， 
因为 电容 与 硅 片 上 门 结构 的 面积 成 正比 ); 可 以 降低 阅 值 电压 ， 这 样 可 以 让 电压 更 快 地 达到 立 
值 ， 从 而 提供 更 多 的 电流 让 电容 充 放电 更 加 迅速 。 硅 片上 门 的 尺寸 正在 逐年 递减 ， 也 许 很 快 就 
会 接近 其 物理 极限 ,但 更 小 的 器 件 尺 寸 意味 着 更 高 的 电阻 ， 进 而 限制 了 7 电流， 所 以 要 更 换 材 料 
以 设计 更 低 电 阻 的 半导体 。 降 低 阅 值 电压 已 经 被 目前 的 IC 厂商 所 采用 ,从 5V 到 3.3V、1.8V、 
1.2V 甚至 更 小 。 但 是 ， 降 低 阀 值 会 使 得 硅 片 更 容易 受到 电子 噪声 的 干扰 。 

从 根本 上 说 ，IC 设计 者 会 通过 各 种 方法 来 改进 他 们 的 电路 系统 ， 比 如 通过 各 种 可 行 的 办 
法 来 仔细 平衡 取舍 从 而 降低 传输 延迟 。 从 20 世纪 50 年 代 到 2010 年 ， 通 过 采取 这 些 设计 方法 ， 
芯片 时 钟 频率 逐年 增高 。 然 而 ， 提 升 频率 所 带 来 的 困难 已 经 迫使 大 家 将 重心 从 高 频率 转向 高 并 
行 化 ， 也 就 是 说 ， 如 果 你 的 频率 不 够 高 ， 那 么 可 以 尝试 更 多 的 并 行 来 达到 高 频率 的 效果 ( 见 
和 

许多 用 于 提升 处 理 器 性 能 的 技术 已 经 使 其 芯片 内 部 的 电流 升 高 (将 在 7.5.2 节 讨 论 ) ， 并 
且 这 一 现象 在 芯片 特征 尺寸 逐渐 减 小 的 面积 有 限 的 硅 片 上 更 为 明显 。 由 于 电流 是 通过 寄生 电阻 
传输 ， 这 样 会 在 传输 过 程 中 产生 热能 。 所 产生 的 电阻 热能 耗 散 和 电流 的 平方 乘 以 电阻 的 结果 成 
正比 (由 于 电流 和 电压 成 正比 ， 因 此 这 也 是 厂商 热 囊 于 降低 供电 电压 的 原因 ， 这 样 可 以 降低 电 
流 ， 因 而 可 以 降低 功 耗 ) 。 不 幸 的 是 ， 电 阻 与 面积 成 反比 ， 由 于 特征 尺寸 降低 导致 面积 减 小 ， 
所 以 电阻 也 会 随 之 升 高 。 这 是 一 个 在 面积 设计 上 进行 折 中 的 重要 参考 。 

总 的 来 说 ， 电 阻 功 耗 在 增加 ， 另 外 随 着 时 钟 频率 提高 ， 门 的 开关 更 加 频繁 ， 因 而 带 来 的 功 
耗 也 更 多 ， 最 终 会 导致 更 大 的 功 耗损 失 。 这 也 意味 着 用 于 门 开 关 而 引起 热量 耗 散 的 时 间 变 短 ， 
致使 硅 片 的 温度 自然 升 高 。 对 于 实现 CPU 的 硅 来 讲 ，125% 甚至 更 高 的 温度 是 很 常见 的 。 

在 额定 电压 下 ， 更 小 的 特征 尺寸 会 产生 出 更 多 的 热量 ， 意 味 着 减 小 IC 封装 的 尺寸 会 让 散 
热 更 加 困难 。 这 样 ， 风 扇 、 散 热 器 、 导 热管 等 对 于 CPU 来 讲 就 成 为 必需 的 设备 。 

下 面 ， 我 们 不 考虑 风扇 和 散热 器 ， 我 们 将 关注 一 些 在 计算 机 中 减 小 能 量 消耗 的 方法 ， 特 别 
是 对 于 电池 能 量 供 给 有 限 的 租 入 式 系统 。 


7.5.2 电流 相关 问题 


在 CMOS 门 电路 中 电阻 会 消耗 一 些 能 量 (即便 是 门 处 于 空闲 状态 ， 也 会 有 微弱 的 电流 经 过 
电阻 并 消耗 能 量 ) ， 但 是 这 与 门 开 关 过 程 中 所 消耗 的 能 量 相 比 相形 见 绸 。 

驱动 单个 MOS 晶体 管 开关 的 瞬时 电流 通常 是 由 供电 电路 通过 在 印 制 电路 板 (PCB) 上 的 
一 个 电源 层 或 者 电源 线 来 提供 。 切 换 至 地 面 (0 电压) 的 电流 通常 为 PCB 上 的 CND 层 所 吸收 。 
不 幸 的 是 ， 电 源 线 、 电 源 层 和 GND 层 均 有 很 小 的 电阻 。 当 一 个 由 门 开关 所 引起 的 很 短 但 比较 
大 的 电流 脉冲 经 过 这 些 电 阻 时 ， 就 会 产生 一 个 补偿 压 降 。 

实际 中 ， 有 几 十 万 个 门 ， 而 且 是 在 同一 时 刻 进行 开关 转换 ， 所 有 瞬时 电流 会 累加 在 一 起 。 
一 个 在 差分 方式 下 工作 的 敏感 示波器 ， 只 需要 把 示波器 接 到 设备 的 电源 输出 接口 和 接 人 引 脚 
上 ， 就 可 以 很 容易 地 直接 检测 到 发 生 在 一 个 系统 时 钟 过 程 中 的 这 个 压 降 。 好 的 电路 设计 实践 
是 : 在 芯片 的 电源 和 地 线 引 脚 旁 边 设计 一 个 旁 路 电容 。 这 种 设计 的 作用 是 耦合 电源 的 高 频 噪 
声 。 这 种 设计 还 可 以 用 作 电 源 储蓄 库 ， 在 需要 和 系统 时 钟 同步 时 释放 一 个 很 短 的 电流 脉冲 。 
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门 开关 所 产生 的 电流 可 以 非常 大 ， 对 于 一 个 x86 结构 的 设备 来 说 ， 甚 至 达到 几 百 安培 ， 但 
是 仅 会 持续 几 个 纳 秒 。 另 外 一 个 问题 就 是 由 此 所 引发 的 电磁 干扰 (EMI，6. 6.3 节 中 有 简单 介 
绍 ) ， 任 何 时 候 只 要 有 电子 移动 ， 便 会 有 由 此 引发 的 相应 的 移动 电场 ， 而 且 事实 上 ， 包 含 电流 
脉冲 的 电路 也 会 像 一 个 天 线 一 样 同步 地 辐射 噪声 ， 或 者 接收 噪声 。 


7.5.3 时 钟 问题 解决 方法 


除非 降低 开关 频率 、 系 统 电 压 或 者 改变 门 的 设计 ， 否 则 电流 问题 是 不 会 从 根本 上 改变 的 ， 
尽管 类 似 旁 路 电容 和 储蓄 电容 这 种 技术 可 以 减轻 这 种 问题 , 详 见 7.5.2 节 。 

然而 ,我 们 可 以 考虑 一 些 方法 来 解决 时 钟 所 引起 的 EMI 问题 。 第 一 种 方法 就 是 引入 多 个 时 
钟 ， 每 个 时 钟 之 间 有 轻微 的 相位 差 。 如 果 有 4 个 不 同 相 位 的 时 钟 ， 并 且 将 一 个 电路 分 为 相应 的 
4 个 部 分 ， 通过 这 4 个 不 同时 钟 进行 控制 ， 这 样 电路 的 峰值 电流 会 降 到 原来 的 1/4。 

维持 一 个 稳定 的 电流 可 以 极 大 减 小 电磁 干扰 ， 因 为 电磁 辐射 跟 电压 变化 有 很 大 关系 ,也 就 
是 说 我 们 如 果 采 用 直流 电源 ， 那 么 所 有 的 EMI 问题 都 能 解决 。 

男 外 一 种 方法 就 是 扩 频 时 钟 。 本 质 上 讲 ， 这 种 方法 是 通过 利用 一 些 离散 的 步骤 来 周期 地 或 
者 随机 地 改变 时 钟 频率 ， 这 样 能 量 辐射 可 以 分 散 到 几 个 不 同 的 时 钟 频 段 上 。 还 可 以 故意 引入 一 
些 振动 的 波形 信号 ,来 防止 时 钟 上 升 沿 或 下 降 沿 过 于 齐整 。 

由 电源 或 者 信号 线 所 产生 的 EMI 还 可 以 通过 并 行 运行 的 一 个 等 量 但 电流 方向 相反 的 信号 
线 抵消 。 这 被 称 为 均衡 电路 ， 并 且 通 常用 于 LVDS 中 以 降低 EMI。 


7.5.4 低 电 压 设 计 


如 果 一 个 CPU 的 能 量 消耗 主要 和 其 时 钟 频率 有 关 ， 那 么 一 个 降低 功 耗 的 很 好 的 办 法 就 是 
让 时 钟 频率 慢 下 来 。 在 蔡 入 式 系统 中 ， 这 种 方法 是 通过 对 时 钟 缩放 寄存 器 写 人 控制 信息 来 实现 
的 ， 这 种 寄存 器 可 以 在 很 多 微 控制 器 和 SoC 处 理 器 中 见 到 。 在 某 些 的 时 间 段 内 ， 处 理 器 可 能 会 
满 负 荷 运行 ， 而 在 其 他 时 间 段 可 能 会 处 于 空闲 状态 。 峰 值 CPU 时 钟 速度 应 该 与 处 理 器 的 峰值 
工作 负载 相 匹 配 ， 不 需要 在 所 有 的 时 刻 都 以 峰值 速度 运行 。 

在 实时 系统 中 ， 一 个 简单 的 控制 时 钟 缩放 的 方法 就 是 在 众多 的 运行 任务 中 指定 一 个 特殊 
的 、 和 运行 在 后 台 的 任务 ， 该 任务 拥有 最 低 的 优先 级 。 在 后 台 运 行 该 任务 会 在 一 个 确定 的 时 间 段 
内 检测 到 它 自 己 占用 了 多 少 CPU 时 间 ， 如 果 占 用 时 间 超 过 某 个 时 间 段 国 值 ， 说 明 系 统 在 大 部 
分 时 间 内 处 于 空闲 状态 ， 因 而 可 以 降低 时 钟 频率 。 而 当 该 后 台 任 务 占用 的 CPU 时 间 近 乎 为 0 
时 ， 则 说 明 系 统 在 满 负 荷 运行 ， 这 样 时 钟 频率 应 该 升 高 。 

大 部 分 的 主流 CPU 生产 厂商 ， 甚 至 x86 级 处 理 器 设计 者 目前 也 是 采用 这 种 办 法 ， 这 样 可 以 
延长 笔记 本 计算 机 的 电池 寿命 。 

男 外 一 种 减少 功 耗 开销 的 办 法 更 加 简单 ， 关 掉 没 有 在 使 用 的 部 分 。 令 人 惊奇 的 是 ， 这 个 想 
法 并 没有 立即 被 IC 设计 者 所 接受 ， 但 是 目前 大 部 分 艇 人 式 处 理 器 设计 中 包含 功 耗 控制 寄存 器 ， 
这 样 可 以 用 来 关 掉 空 闲 的 电路 模块 ， 从 而 降低 功 耗 。 当 真正 应 用 这 个 技术 时 ， 大 部 分 程序 员 可 
以 简单 地 在 程序 初始 化 阶段 启用 某 些 模块 或 者 禁止 某 些 模块 。 不 过 ， 更 为 常见 的 做 法 是 在 运行 
时 动态 地 控制 这 些 模 块 。 

图 7-6 解释 了 以 上 两 种 方法 ， 其 中 一 个 SoC 处 理 器 的 电流 消耗 被 描绘 为 一 个 程序 执行 过 
程 ， 该 程序 使 用 了 一 些 片 上 外 设 。 在 程序 执行 的 开始 阶段 ， 静 态 功 耗 控制 通过 关 掉 不 使 用 的 外 
设 来 减少 电流 消耗 而 动态 功 耗 控制 首先 关 掉 所 有 的 外 设 ， 当 外 设 被 调用 时 才 开 启 ， 且 只 在 使 
用 阶段 处 于 开启 状态 。 在 这 几 种 情况 中 ， 图 下 面 的 面积 代表 了 总 共 消 耗 的 能 量 ， 如 果 这 个 系统 
是 在 电池 供电 的 情况 下 工作 ,那么 可 以 反映 出 电池 电量 在 3 种 不 同情 形 下 的 消耗 。 
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图 7-6 CPU 内 的 功 耗 控制 示意 图 : 一 个 简单 的 程序 依次 操作 几 个 外 设 〈 分 别 为 ADC、 串 口 、PWM， 然 
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后 是 ADC) ， 并 且 外 设 所 消耗 的 电流 量 也 被 记录 下 来 。 其 中 显示 了 3 种 情况 : 无 功 耗 控制 、 静 态 
功 耗 控制 〈 在 开始 阶段 ， 所 有 其 他 未 在 使 用 的 外 设 都 被 关闭 ) 和 动态 功 耗 控制 〈 除 了 在 开始 阶 
段 默 认 关闭 外 ， 所 有 设备 只 在 被 使 用 时 才 开 启 ) 。3 种 不 同 颜色 的 图 形 分 别 表 示 了 3 种 控制 模式 
下 的 能 量 消耗 


在 伐 入 式 系统 中 ， 还 有 很 多 其 他 的 有 用 方法 来 控制 功 耗 ， 比 如 以 下 这 些 : 


没有 必要 让 LED 一 直 亮 着 ， 因 为 人 眼 在 其 关闭 后 依旧 可 以 看 见 残存 的 固体 光 ， 只 需 每 
隔 50ms 打开 lms 即 可 (只 会 消耗 功率 的 1/50) ， 其 他 显示 器 也 是 这 样 。 

使 用 时 钟 缩放 和 智能 动态 功 耗 控 制 的 组 合 机 制 来 获取 最 低 功 耗 开销 。 

当 等 待 一 个 软件 事件 时 ， 可 以 尝试 寻找 一 个 休眠 方法 ， 这 样 可 以 让 处 理 器 进入 一 个 非常 低 
功 耗 的 模式 ， 而 不 是 进入 一 个 忙 等 竺 循环 状态 ， 在 这 种 状态 下 处 理 器 会 进行 反复 的 轮 询 。 
即使 轮 询 有 必要 时 ， 也 可 以 考虑 在 可 能 的 时 候 插 入 一 个 短暂 的 睡眠 (可 以 通过 时 钟 中 
断 来 退出 ) ， 此 时 CPU 处 于 空闲 状态 。 

定点 计算 往往 比 浮 点 计算 更 加 低 功 耗 。 

片上 存储 往往 比 片 外 存储 更 加 低 功 耗 ， 因 此 ， 可 能 的 话 尽量 使 用 片上 存储 来 存放 经 常 
存 取 的 变量 。 

数据 移动 也 会 产生 功 耗 ， 因 此 ， 最 好 最 大 化 在 数据 结构 上 的 操作 ， 通 过 将 数据 引用 给 
操作 函数 ， 而 不 是 把 整个 数据 复制 过 去 ， 以 此 减少 数据 移动 所 产生 的 功 耗 。 

将 使 用 高 功 耗 器 件 的 操作 集中 在 一 起 。 比 如 ， 在 早期 的 iPod 中 ， 磁 盘 驱动 消耗 了 大 部 
分 的 电池 电量 ， 所 以 苹果 公司 设计 了 一 个 更 大 的 缓存 系统 ， 使 得 系统 可 以 从 硬盘 中 一 
次 读 入 一 首 或 者 更 多 歌曲 ， 然 后 在 播放 这 些 歌曲 的 时 候 关 闭 硬 盘 。 然 后 ， 几 分 钟 过 后 ， 
人 硬盘 重新 开启 为 读 取 下 面 几 首 歌 做 准备 。 这 样 ， 只 需要 对 硬盘 间歇 供电 。 


存储 


我 们 已 经 在 之 前 的 章节 里 对 存储 进行 过 多 次 讨论 ， 并 对 其 中 一 些 存 储 器 进行 了 介绍 ， 如 
SDRAM、DDR ( 双 倍 速率 动态 随机 存 取 存 储 器 ) 等 。 现 在 再 让 我 们 一 起 对 这 些 存储 以 及 它们 
与 计算 机 体系 结构 和 嵌入 式 系统 相关 的 特性 进行 探讨 。 在 对 ROM 和 RAM 进行 探讨 前 ， 首 先 来 
回顾 一 下 计算 机 存储 发 展 历史 。 


早期 的 计算 机 存储 


值得 一 提 的 是 ， 在 早期 的 计算 机 中 有 多 个 存储 ， 特 别 是 极 少 将 程序 存储 和 变量 存储 混淆 在 一 起 
并 且 不 会 认为 它们 是 同等 的 。 一 直到 冯 “ 诺 依 曼 机 器 出 现 之 后 ， 程 序 和 数据 才 开 始 共享 存储 空间 。 
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一 般 来 说 ， 最 早期 的 可 编程 计算 机 (正如 第 1 章 里 提 到 的 ) 都 是 通过 导线 进行 硬 编程 
(hard-coded) 或 通过 开关 进行 编程 ， 并 使 用 真空 管 或 延迟 线 ( delay line) 实现 位 级 存储 。 对 这 
种 机 器 进行 重新 编程 很 麻烦 ， 它 需要 每 天 不 停 地 重 置 导线 (或 开关 ) 来 对 系统 进行 编程 ， 这 
是 一 件 耗 时 并 且 容 易 发 生 错误 的 事情 。 随 后 穿孔 卡片 (或 磁带 ) 被 用 来 进行 程序 存储 ， 它 在 
纺织 工业 里 已 经 使 用 了 200 多 年 。 

过 去 的 数据 存储 都 会 使 用 到 延迟 线 ， 有 时 还 伴随 使 用 其 他 一 些 有 趣 的 技术 (如 阴极 射线 管 
延迟 线 、 水 银 延 迟 线 、 声 波 延 迟 线 等 ) 。 它 们 可 以 在 短 时 间 内 保持 位 信息 ， 从 而 让 计算 机 能 够 
对 其 他 数据 进行 操作 ， 效 果 上 相当 于 简单 数字 计算 器 中 的 存储 器 功能 。 

之 后 ， 磁 芯 存 储 器 被 发 明 出 来 ， 它 被 用 于 对 数据 和 程序 进行 存储 。 磁 盘 也 被 用 于 数据 和 程 
序 存储 ， 后 来 演化 为 软盘 和 硬盘 两 种 形式 。 

和 其 他 领域 一 样 ， 电 路 集成 到 硅 片 上 带 来 了 存储 技术 的 最 大 发 展 。 在 20 世纪 60 年 代 中 期 
产生 了 针对 变量 的 可 重 写 存储 器 和 针对 程序 的 只 读 存 储 器 。 然 而 相 比 磁 芯 存储器， 硅 片 存储 每 
位 的 开销 要 高 得 多 ， 其 结果 是 在 20 世纪 80 年 代 硅 存储 虽然 占据 了 大 部 分 计算 机 市 场 ， 但 是 对 
于 大 数据 量 的 存储 ， 还 是 使 用 硬盘 驱动 器 。 除 了 最 小 型 的 戏 入 式 系 统 ， 非 硬盘 式 计 算 机 直到 最 
近 才 被 认为 是 可 行 的 。 

然而 , 今天 几乎 所 有 的 组 入 式 系统 都 包含 了 闪存 (Flash) ， 并 且 一 些 品牌 的 笔记 本 计算 机 也 开 
始 使 用 固态 存储 : 理论 上 说 这 些 存 储 器 功 耗 低 ， 不 会 受 物理 撞击 影响 ， 比 硬盘 式 计算 机 要 可 靠 。 

目前 对 于 程序 存储 和 数据 存储 不 加 任何 区 别 ， 本 章 后 面 讨论 的 存储 器 都 可 以 用 来 对 程序 和 数据 
进行 存储 。 然 而 ， 不 同 的 存储 器 与 不 同类 型 数据 的 访问 特征 相 匹 配 ， 这 点 我 们 将 在 稍 后 进行 讨论 。 


7. 6.2 只 读 存储 器 


只 读 存 储 器 (Read-Only Memory ，ROM) 并 不 是 指 一 种 技术 ， 而 是 一 种 存 取 方 式 : 存储 在 
ROM 中 的 数据 只 能 被 计算 机 读 取 而 不 能 被 改写 。 这 意味 着 这 种 数据 是 稳定 不 变 的 ， 这 种 特征 很 适 
合 程序 代码 ， 也 适合 需要 保持 不 变 的 数据 (如 MP3 播放 器 中 的 数字 滤波 系数 和 开机 画面 ) 。 

从 最 底层 上 说 ， 半 导体 ROM 是 一 个 在 硅 片 上 实现 的 查找 表 。 给 定 一 个 地 址 输入 ， 它 会 选 
择 该 地 址 对 应 的 门 ， 然 后 这 个 门 就 会 将 它 的 状态 输出 到 对 应 每 一 位 的 数据 线 上 。 如 图 7-7 所 
示 ， 它 给 出 了 一 个 4 字 节 ROM 示意 图 , 但 目前 实际 使 用 的 ROM 布局 会 比 这 个 图 复杂 一 些 。 

一 些 ROM (尽管 还 使 用 这 个 名 字 ) 是 可 写 的 。 但 ROM 的 命名 说 明了 它们 最 主要 的 功能 还 
是 读 取 ， 写 操作 或 者 无 法 实现 或 者 不 方便 实现 。 接 下 来 我 们 对 一 些 ROM 技术 的 变种 进行 讨论 。 

。 一 个 基本 的 掩 模型 ROM 芯片 包含 了 地 址 总 线 、 片 选 输入 、 读 信号 输入 以 及 电源 和 接地 

引 脚 。 它 能 够 将 当前 所 选择 地 址 的 内 容 输出 到 数据 总 线 上 。 

e EPROM 可 擦 可 编程 ROM (erasable programmable ROM (PROM) ) ， 在 其 芯片 上 方 有 
一 个 硅 “ 窗 ”， 通 过 它 可 以 看 到 其 内 部 。 通 过 向 该 窗口 照射 10 分 钟 紫 外 线 光 ， 其 内 部 
的 数据 即 可 被 擦 除 。” 然 后 通过 向 所 选择 的 数据 引 脚 施加 高 电压 就 可 以 对 其 进行 编程 。 
这 个 步骤 可 以 通过 EPROM 编程 器 进行 ， 它 通常 带 有 一 个 插座 ， 由 此 可 以 方便 地 对 
EPROM 进行 编程 。 如 果 一 个 设备 不 带 有 硅 窗 ,那么 它 就 是 不 可 控 除 的 EPROM ( 即 
PROM) 。 市 面 上 还 有 一 些 基于 硅烷 丝 的 ROM ， 它 们 通过 输入 高 电压 对 硅 片 上 的 熔 丝 进 
行 熔 断 来 打开 或 关闭 连接 。 
作为 EPROM 的 升级 ，E>*PROM 或 EEPROM 是 电 可 擦 除 PROM (electrically erasable PROM ) ， 
即 闪存 (flash memory)。 这 种 设备 可 以 通过 12V 电压 对 其 内 容 进行 擦 除 和 重 写 。 而 许多 现代 








日 日 光 也 可 以 擦 除 这 种 设备 上 的 信息 ,但 需要 花 更 长 的 时 间 。 因 此 ， 工程师 如 果 希 望 程序 能 够 保持 几 天 或 几 
个 星期 ,需要 在 窗口 上 贴 上 标签 以 避免 日 光照 射 。 
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图 7-7 


设备 都 可 以 在 其 内 部 将 3.3V 或 5V 的 供电 电压 升 为 12V。 根 据 测 试 得 知 ， 这 种 设备 都 有 使 用 
寿命 ， 与 它们 的 数据 保留 时 间 和 擦 除 次 数 相 关 ， 通 常 范 围 为 超过 10 年 且 在 1000 ~ 10 000 次 
之 间 。 工 程 师 在 选择 使 用 这 种 设备 时 都 要 注意 ， 在 其 寿命 周期 内 ， 对 其 读 的 次 数 多 而 改写 
次 数 少 ， 可 以 延长 其 寿命 。 图 7-8 展示 了 这 种 设备 中 的 一 种 引 脚 分 布 ， 它 带 有 一 个 地 址 总 线 
和 一 个 数据 总 线 。nWE 引 脚 (active- low write enable， 低 电 平 有 效 写 允许 ) 是 一 个 输出 引 
脚 ， 指 出 该 设备 当前 可 以 写 人 。 一 个 真正 的 EPROM 与 其 很 相似 ， 有 相同 的 引 脚 定义 ， 只 是 
nWE 引 脚 除外 〈 有 设备 标 为 “NC”， 即 指 “ 没 有 连接 ” (no connection ) ) 。 
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地 址 
这 保持 了 一 个 
逻辑 高 电压 
seleet| 这 保持 了 一 个 
out| 让 辑 低 电压 
一 个 ROM 的 简化 图 。 它 是 一 个 由 迎 辑 单元 组 成 的 阵列 ， 按 行 寻 址 ， 可 以 输出 8 位 数据 。 如 果 定 


义 暗色 的 单元 所 包含 的 值 为 逻辑 1， 亮色 的 单元 所 包含 的 值 为 逻辑 0， 那么 选择 第 1 行将 输出 二 
进 制 值 00110100b 或 十 进 制 值 0x34。 正确 操作 下 ， 每 次 只 有 1 行 被 选择 


/人 
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DO_ 

LU 

过 图 7-8 一 款 主流 (虽然 很 老 ) 的 电 可 擦 除 可 

= 编程 只 读 存 储 器 (EEPROM) 。 它 有 11 
个 地 址 引 脚 ， 可 寻 址 16Kibit 存储 空间 
( 即 2048 字 节 ， 字 长 为 8 位 )。 片 选 


(nCE)、 写 启用 (nWE)、 读 /输出 启 
用 (nOE)、GND 和 V. 都 在 图 上 标 出 。 
这 款 2816A 可 以 进行 超过 10 000 次 写 
操作 ， 并 可 以 保持 10 年 
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目前 有 两 种 闪存 技术 : NAND 闪存 和 NOR 闪存 , 框 7.3 里 给 出 了 详细 介绍 。 
NAND 和 NOR 闪存 





目前 有 两 种 不 同 的 闪存 技术 ; NAND 闪存 和 NOR 一 一 TNoR TNAND 
闪存 。 它 们 都 是 以 其 所 使 用 的 门 结构 来 命名 。NAND 容量 更 大 
闪存 是 一 种 基于 块 、 高 密度 低 开 销 的 存储 ， 适合 大 量 接口 与 SRAM 类 似 基于 块 
数据 存储 。NAND 闪存 可 以 在 府 入 式 系统 中 取代 硬 存 取 类 型 随机 存 取 按 序 存 取 
盘 ， 同 时 也 适合 在 MP3 播放 器 等 设备 中 进行 数据 擦 除 周 期 超过 100 000 超过 1 000 000 
存储 。 擦 除 速度 数秒 数 毫秒 
这 两 种 闪存 技术 的 对 比如 在 表 所 示 : 写 速度 慢 快 
对 于 嵌入 式 应 用 、 代 码 存储 等 我们 限定 讨论 读 速 度 | 锯 快 
范围 为 NOR 闪存 ( 它 最 常见 ， 特 别 是 在 并 行 连接 设 。。 现场 执行 | 是 本 
备 中 ) ， 价格 较 高 较 低 








串 行 闪存 ， 如 图 7-9 所 示 ， 是 采用 串 行 接口 而 非 并 行 接口 的 闪存 。 它 带 有 25MHz 的 串 行 总 
线 ， 命 令 字 、 地 址 字 节 以 及 控制 信号 都 要 通过 串 行 总 线 进行 传输 ， 这 是 造成 串 行内 存 速度 比 并 
行内 存 慢 的 主要 原因 。 首 先 要 指定 读 / 写 地 址 (这 种 指定 通常 需要 花费 一 定时 间 )， 然 后 是 任 
意 数 量 的 字 节 读 或 写 (其 速度 会 快 得 多 ) ， 这 种 寻 址 机 制 使 得 它 很 适合 那 种 顺序 读 取 的 信息 存 
储 。 但 对 于 随机 读 取 或 对 单个 字 节 进行 写 操作 ， 其 效率 很 低 。 
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图 7-9 串 行内 存在 同一 个 接口 界面 上 使 用 串 行 接口 、 多 重 控制 、 地 址 和 数据 。 在 存储 器 阵列 的 右 侧 并 不 
需要 额外 的 专用 引 脚 ， 尽 管 右 侧 的 数据 大 小 是 存储 器 阵列 左 侧 的 64 倍 。 可 以 看 到 的 是 这 个 设备 
同样 是 很 微小 的 ， 只 有 6mm x5mm 大 小 


大 多 数 闪 存 设 备 ， 不管 是 串 行 存 取 还 是 并 行 存 取 ， 在 其 内 部 都 被 布局 为 多 个 块 或 页 。 
这 些 闪存 在 最 初 使 用 时 所 有 的 字 节 都 被 初始 化 为 0xff。 换 句 话 说， 这 些 闪 存 的 每 一 位 在 最 
初 都 被 初始 化 为 “1”。 可 以 寻 址 和 读 取 闪存 中 的 每 个 位 置 ， 对 每 个 字 节 的 访问 都 会 返 
回 0xff。 

对 存储 中 的 任何 位 置 都 可 以 进行 编程 。 当 需要 对 某 一 位 编程 为 “0” 时 需要 将 该 位 的 “1” 
清 为 “0”， 而 需要 编程 为 “1” 时 则 保持 不 变 。 

例如 ， 初 始 时 某 位 置 为 字 节 0xff， 如 果 需 要 将 其 编程 为 0xf3 ， 则 该 字 节 将 变 为 0x3 。 如 果 
再 将 同一 个 位 置 编程 为 0xa7 ， 则 该 位 置 将 变 为 0xf3 和 0xa7 相 与 的 结果 ， 为 0xa3 (因为 1010 
0111 AND 1111 0011 = 1010 0011) 。 显 然 ， 如 果 不 断 地 写 某 个 字 节 ， 它 最 终 将 变 为 0x00。 所 以 
开发 人 员 在 使 用 闪存 时 可 以 看 到 未 被 擦 除 的 位 置 被 设置 为 0xff。 

每 当 闪存 被 擦 除 ， 它 上 边 的 每 个 字 节 都 将 被 置 为 0xff。 事 实 上 ， 这 种 擦 除 是 按 块 来 进行 
的 ， 所 以 一 旦 执行 了 擦 除 命 令 ， 所 选择 的 一 整 块 都 将 变 为 0xf。 同 时 也 可 以 将 某 一 块 锁 住 ， 禁 
止 对 其 进行 擦 除 操作 。 

读 闪存 与 读 ROM 的 方式 是 一 样 的 ， 都 要 遵循 6. 2 节 中 所 述 的 标准 总 线 传输 。 本 质 上 ， 这 
意味 着 如 果 CPU 要 读 取 所 连接 的 外 设 闪存 ， 则 需要 进行 : ( i ) 在 地 址 总 线 上 设置 需要 访问 的 
地 址 ; (这 ) 置 片 选 信号 nCE; (证 ) 置 输出 启用 信号 nOE; (这 ) 允许 设备 在 某 个 时 刻 访问 到 
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指定 的 位 置 ， 确 定 其 内 容 并 输出 到 数据 引 脚 上 ; ( V) 从 数据 总 线 上 读数 据 ， 这 个 步骤 必须 在 
(Vi) 对 所 有 的 信号 进行 复位 前 完 

写 操作 与 读 操作 类 似 ， 只 是 需要 在 数据 总 线 上 设置 要 写 人 的 数据 以 及 置 写 启 用 信和 号 
(CnWE) 而 非 nOE。 如 果 这 个 过 程 是 在 一 个 SRAM 芯片 〈 将 在 接 下 来 的 章节 中 讨论 ) 上 进行 ， 
它 将 被 写 到 指定 的 位 置 。 然 而 ， 对 于 闪存 这 个 过 程 稍微 有 点 复杂 。 它 需要 写 人 一 系列 指令 以 对 
其 进行 控制 (在 指定 存储 位 置 被 写 人 前 ) 。 下 表 分 别 给 出 了 来 自 Atmel 和 Intel 的 两 款 闪 存 设备 
的 写 信 控制 指令 序列 : 


























Atmel AT29xxx Intel 28F008SA 
数据 地 址 数据 地 址 
编程 0xaaaa 0x5555 0x10 <addr > 
0x5555 0x2aaa <data> <addr> 
0xa0a0 0x5555 
<aata > <addr > 
控 除 扇 区 0x00aa 0x5555 0x20 <addr > 
0x0055 0X2aaa 0xd0 <addr > 
0x0080 0x5555 
0x00aa 0x5555 
0x0055 0x2aaa 
Ox0050 <addr > 
擦 除 设备 0x00aa 0x5555 不 支持 
0x0055 0x2aaa 
0x0080 0x5555 
0x00aa 0x5555 
0x0055 0x2aaa 
0x0010 0x5555 





因此 ， 对 Atmel 闪存 的 地 址 0x1001 写 人 字 0x1234 需要 4 个 写 周期 : 

e 写 0xaaaa 到 地 址 0x5555 。 

e@e 写 0x5555 到 地 址 0x2aaa。 

e 写 0xa0a0 到 地 址 0x5555 。 

。 最 后 ， 该 闪存 向 地 址 0x1001 写 入 数据 0x1234。 

对 于 Intel 内存， 指令 序列 相对 短 一 些 : 

。 写 0x0010 到 地 址 0x1001 。 

。 写 0x1234 到 地 址 0x1001。 

之 所 以 需要 如 此 烦琐 的 写 步 又 ， 是 为 了 避免 对 闪存 的 意外 重 写 (这 种 情况 在 CPU 程序 错 
误 运行 时 可 能 会 发 生 一 一 产生 一 个 随机 地 将 数据 写 人 不 同 地 址 的 程序 并 不 困难 )。 闪存 上 一 般 
还 有 另 一 层 保护 机 制 ， 它 会 检测 供电 电压 ， 如 果 电 压 较 低 或 出 现 明 显 波动 ， 将 会 禁止 写 入 。 
CPU 还 可 以 对 闪存 上 不 同 的 状态 寄存 器 进行 读 取 (这 也 需要 通过 写 一 系列 的 指令 将 设备 转 人 
“ 读 取 状态 寄存 器 模式 ”或 其 他 类 似 模 式 ， 之 后 的 一 条 或 两 条 读 指令 将 返回 状态 寄存 器 的 内 
容 ) 。 另 一 条 指令 可 以 读 出 设备 的 制造 商 和 设备 识别 信息 ， 因 此 一 个 好 的 程序 可 以 根据 所 连接 
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的 不 同 设备 确定 相应 的 编程 算法 。 

需要 注意 的 是 ， 虽然 之 前 所 示 的 是 目前 大 部 分 厂商 所 遵循 的 两 种 主要 指令 控制 序列 类 型 
( 即 大 部 分 设备 的 控制 方式 与 这 两 种 相似 )， 但 是 不 同 的 制造 厂商 对 自己 的 闪存 是 有 不 同 的 指 
令 控制 序列 的 。 

闪存 从 本 质 上 是 一 种 基于 块 的 技术 一 一 虽然 根据 需要 可 以 对 独立 的 字 进 行 读 或 编程 ， 但 擦 
除 操作 是 按 块 进行 的 (这 一 点 对 于 所 有 基于 闪存 的 技术 是 一 样 的 ， 例 如 紧凑 式 闪 存 (compact 
”flash，CF) 存储 卡 、 安 全 数字 (secure digital，SD) 存储 卡 、 记 忆 棒 (memory stick) 等 ， 对 于 
这 点 ， 大 部 分 用 户 可 能 是 不 知道 的 ) 。 对 闪存 中 一 个 64KiB 块 改变 一 个 字 节 通常 需要 经 过 以 下 
步骤 : 

。 将 闪存 的 整个 块 读 和 人 RAM。 

。 在 RAM 上 找到 需要 改变 的 字 节 并 用 新 的 值 进行 替换 。 

。 发 送 指令 序列 对 闪存 上 的 块 进行 擦 除 。 

。 (等 待 以 上 操作 完成 。) 

。 发 送 指令 序列 开始 进行 写 操作 ， 将 整 块 写 回 到 闪存 上 。 

块 一 般 都 非常 大 之 前 提 到 64KiB 的 块 并 不 是 太 常 见 的 ， 所 以 闪存 对 于 存储 那些 经 常 要 
改变 的 小 变量 并 不 是 太 好 的 选择 。 

从 一 个 编程 人 员 的 角度 ， 指 定 不 同类 型 的 信息 存储 在 不 同 的 块 上 是 很 有 用 的 。 在 舱 入 式 
系统 中 ， 对 于 引导 内 存 有 特别 要 求 (这 点 将 在 7. 8 节 进 行 讨论 ) 。 一 种 简单 的 方法 就 是 将 经 
常 需要 重 写 的 内 容 (如 配置 信息 ) 放 在 同一 个 块 内 ， 而 将 不 经 常 重 写 的 内 容 放 在 另 一 个 
块 内 。 

随 着 闪存 使 用 时 间 的 增加 ， 它 的 速度 会 逐渐 变 慢 ， 擦 除 或 编程 几 个 字 节 都 变 得 十 分 耗 
时 。 显 然 ， 我 们 更 希望 闪存 不 会 降低 所 连接 的 计算 机 的 速度 ， 因 此 闪存 的 设计 人 员 提 出 了 
一 些 聪明 的 方法 来 解决 这 种 问题 。 图 7-10 所 示 是 其 中 一 种 方法 的 模块 图 ， 它 将 一 个 块 大 小 
的 RAM 加 入 闪存 中 。 编 程 人 员 想 要 对 闪存 中 的 一 个 块 进行 写 操作 时 ， 可 以 先 将 数据 快速 地 
写 人 这 个 基于 SRAM 的 RAM 块 上 ， 然 后 发 出 指令 让 设备 自行 将 整个 RAM 的 内 容 复 制 到 目标 
闪存 块 上 。 类 似 地 ， 当 只 有 一 个 字 节 需要 改变 的 时 候 ， 闪 存 块 首先 被 自行 复制 到 这 个 RAM 
上 ， 然 后 编程 人 员 将 所 需 改 变 的 字 节 写 人 RAM 上， 再 发 出 指令 擦 除 目标 闪存 块 并 从 RAM 上 
复制 。 

如 图 7-10 所 示 的 闪存 结构 在 目前 主流 的 并 行内 存 设备 中 被 广泛 采用 。 在 串 行内 存 中 ， 
nOE、nWE 及 其 他 控制 信号 都 是 由 串 行 接口 控制 器 发 出 ， 而 不 是 直接 从 并 行 接口 获得 。 


7.6.3 随机 存 取 存 储 器 


“随机 存 取 存储 器 ” (Random Access Memory，RAM) 这 个 词 与 ROM 一样， 描述 的 是 一 种 
存 取 方式 而 不 是 一 种 技术 : 它 是 指 存储 器 中 的 任何 位 置 都 可 以 根据 需要 任意 存 取 (包括 读 出 和 
写 人 )。 这 种 存 取 对 于 今天 的 计算 机 来 说 是 很 普遍 的 ， 与 它 相 对 的 是 串 行 存 取 ， 如 在 磁带 和 基 
于 延迟 的 存储 器 上 ， 获 取 数 据 的 顺序 与 数据 被 写 和 人 的 顺序 相同 。 在 早期 的 计算 机 中 ， 串 行 数据 
存 取 产生 的 约束 问题 不 是 太 普 遍 。 

当然 ， 串 行 存 取 和 随机 存 取 之 间 还 有 一 个 区 别 RAM 是 可 以 寻 址 的 ， 因 此 它 需 要 一 个 
地 址 指出 所 要 存 取 数据 的 位 置 。 对 于 更 为 普遍 的 并 行 总 线 存储 ， 这 个 地 址 由 并 行 地 址 总 线 给 
出 。 有 时 候 地 址 总 线 与 数据 总 线 复 用 。 而 串 行 存储 设备 则 使 用 串 行 机 制 来 传输 地 址 (如 7. 6.2 
节 所 讨论 的 串 行内 存 设备 ) 。 
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图 7-10 带 有 RANM 的 闪存 内 部 结构 模块 图 。 该 RAM 为 块 大 小 ， 用 于 存储 编程 数据 。 这 个 闪存 阵列 包含 
多 个 相等 的 块 。 这 种 规整 结构 使 得 制造 商 可 以 通过 增加 更 多 行 的 块 来 提高 闪存 容量 (实际 中 一 
般 都 多 于 4 列 ) 。 箭 头 所 指 的 方向 连接 着 数据 总 线 

总 体 而 言 ， 目 前 有 两 种 类 型 的 RAM 技术 : 静态 
RAM (Static RAM，SRAM) 和 动态 RAM ( Synamic 每 位 由 6 
RAM，DRAM) 。 而 DRAM 又 可 以 细 分 为 几 种 子 类 ， 较 低 密度 
我 们 将 会 在 稍 后 进行 简要 介绍 。 右 表 是 SRAM 和 容量 在 信介 
DRAM 的 主要 区 别 。 [ 作 时 需要 较 高 电压 

7.6.3.1 SRAM 

SRAM 虽然 被 称 为 “静态 ”的 ， 但 是 它 仍旧 是 一 个 易 失 性 存储 器 一 一 当 失 去 供电 时 ， 所 存 
储 的 数据 就 会 丢失 。 之 所 以 被 称 为 “静态 ” ， 是 因为 它 的 每 个 存储 单元 只 要 保持 供电 就 可 以 一 
直 保 持 数据 状态 ， 而 不 需要 刷新 过 程 。 而 我 们 稍 后 将 提 到 的 DRAM ， 就 需要 进行 周期 性 刷新 。 - 

SRAM 速度 相对 较 快 ， 但 由 于 其 每 个 逻辑 单元 的 电路 复杂 度 是 DRAM 的 数 倍 ， 所 以 它 价格 
更 贵 、 密 度 更 低 并 且 在 读 写 过 程 中 消耗 的 能 量 也 更 多 。 但 现代 SRAM 在 非 读 写 状 态 时 的 功 耗 比 
DRAM 低 ， 这 是 因为 DRAM 不 像 SRAM ， 它 在 没有 访问 的 时 候 也 需要 进行 周期 性 的 刷新 操作 。 

SRAM 在 使 用 和 连接 上 与 ROM 很 相似 。 参 考 图 7-11 中 所 示 的 两 款 SRAM 引 脚 分 布 ， 与 
图 7-8 的 EEPROM 在 数据 连接 方面 有 相似 之 处 ， 只 是 引 脚 位 置 略 有 不 同 。 图 7-11 中 的 两 款 
SRAM 的 容量 分 别 为 16Kibit 和 1Mibit。16Kibit 的 SRAM 有 11 个 数据 总 线 引 脚 (因为 2" =2048 x 
8bit = 16 384bit) ， 而 1Mibit 的 SRAM 则 有 17 个 (A[16..0]， 因 为 2” = 131 072 x 8bit = 
1024Kibit = 1 Mibit) 。 
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大 容量 存储 便宜 
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图 7-11 两 款 早期 SRAM (16Kibit 的 6116 和 1Mibit 的 431000) 引 脚 图 。 注 意 到 它们 都 拥有 相同 的 8 位 输 
入 /输出 端口 (通常 与 数据 总 线 连 接 )、 供 电 引 脚 、 片 选 引 脚 (nCS) 和 读 写 引 脚 。 而 右边 芯片 
的 容量 是 左边 的 64 倍 ， 因 此 比 左边 的 多 出 6 个 地 址 引 脚 (All ~ A16) 
SRAM 与 ROM 一 样 拥有 规整 的 内 部 单元 结构 。 图 7-12 给 出 了 一 个 简化 的 SRAM 矩阵 图 ， 
对 这 些 单元 可 以 并 行 地 进行 独立 寻 址 (与 图 中 的 8 位 并 行 总 线 相 连接 ) ， 并 且 在 地 址 被 选择 的 
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总 线 译 码 器 和 读 / 写 控制 器 
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图 7-12 简化 的 SRAM 内 部 结构 模块 图 。 它 由 一 个 存储 单元 阵列 组 成 ， 通 过 
总 线 译 码 器 和 读 / 写 控制 器 的 控制 可 以 对 其 进行 读 出 和 写 人 
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情况 下 可 以 对 相应 单元 进行 读 出 或 写 人 。 双 向 缓冲 将 外 部 数据 总 线 和 内 部 数据 线 连接 起 来 ， 按 
方向 控制 ， 以 避免 跟 其 他 连接 在 相同 外 部 数据 总 线 上 的 单元 发 生 总 线 竞 争 。 

SRAM 通常 在 单 片 计算 机 上 被 用 作 cache 存储 和 片上 存储 。 在 简单 的 小 型 嵌入 式微 控制 器 
中 ，SRAM 通常 被 用 作 外 部 存储 ， 其 存储 容量 一 般 为 数 十 KiB ( 因为 至 少 在 低 密度 时 DRAM 和 
SRAM 的 价格 差别 不 大 ， 且 微 控制 器 一 般 较 为 简单 ， 从 而 不 支持 DRAM) 。 

7.6.3.2 DRAM 

之 前 曾 提 到 过 ，DRAM 之 所 以 被 称 为 “动态 ”是 因为 它 总 是 在 不 断 地 变化 : 每 个 单元 所 存 
储 的 值 由 与 每 位 对 应 的 单一 晶体 管 相连 接 的 电容 确定 ， 由 于 门 是 会 “漏电 ”的 ， 因 此 这 些 电 
容 会 不 停 地 放电 。 剧 新 的 过 程 是 依次 读 取 每 个 单元 ， 然 后 对 其 电容 进行 适当 的 充电 。 任 何 未 被 
刷新 的 单元 都 将 在 几 毫 秒 内 丢失 其 电荷 。 

写 过 程 是 将 电荷 通过 晶体 管 充 人 电容 (逻辑 高 ) 或 对 电容 进行 放电 (逻辑 低 )。 有 趣 的 
是 ， 通 过 读 过 程 确定 单元 内 的 电荷 ， 还 会 刷新 该 单元 ， 因 此 对 整个 DRAM 进行 周期 性 的 读 取 也 
可 以 对 该 DRAM 进行 刷新 。 

现代 DRAM 都 是 高 度 集成 的 ， 并 且 大 部 分 与 DRAM 相连 接 的 微 处 理 器 (或 其 他 支持 
DRAM 的 芯片 ) 都 会 自动 进行 刷新 过 程 ， 这 只 需 对 几 个 寄存 器 进行 正确 的 设置 。 然 而 ， 刷 新 需 
要 消耗 一 定 的 时 间 ， 这 个 时 间 也 许 就 是 CPU 等 竺 存储 就 绪 的 时 间 ， 但 这 对 CPU 性 能 的 影响 
不 大 。 

DRAM 从 20 世纪 60 年 代 中 期 发 展 到 现在 经 过 了 一 段 非常 长 的 时 间 ， 在 这 期 间 经 历 了 许多 
发 展 。 表 7-2 列 出 了 一 些 重要 里 程 碑 ， 包 括 发 布 时 间 、 时 钟 速度 以 及 工作 电压 。 


表 7-2 ”SDRAM 技术 发 展 史上 一 些 重要 的 里 程 碑 
































名 称 年 份 时 钟 频率 电压 
基本 DRAM 1966 一 5V 
快 页 模式 (Fast Page Mode，FPM) 1990 30MHz 5V 
扩展 数据 输出 (Extended Data Out，EDO) 1994 40MHz 5V 
同步 DRAM( Synchronous DRAM, SDRAM) 19941 40MHz 3.3V 
rambus DRAM( Rambus DRAM, RDRAM) 1998 400MHz 2.5V 
双 倍 数据 速率 (Double-Data-Rate，DDR) SDRAM 2000 266MHz 2.5V 
DDR2 SDRAM 2003 533MHz 1. 8V 
DDR3 SDRAM 2007 800MHz 1.5V 


(DIBM 独立 使 用 同步 DRAM 的 时 间 比 这 个 时 间 早 。 
注意 : RD 和 DDR RAM 在 时 钟 上 升 沿 和 下 降 沿 都 传输 数据 ， 因 此 它们 工作 的 频率 是 时 钟 频率 的 两 售 。 

DRAM 与 SRAM 的 最 大 区 别 在 于 它 的 本 质 是 动态 的 ， 需 要 持续 刷新 。 由 于 DRAM 位 存储 单 
元 比 SRAM 的 小 很 多 ， 所 以 DRAM 比 SRAM 要 便宜 且 密 度 更 大 。 但 是 DRAM 比 SRAM 速度 慢 ， 
并 且 在 没有 读 写 时 的 功 耗 比 SRAM 要 大 (但 在 有 存 取 时 SRAM 的 功 耗 更 大 ) 。 

DRAM 的 寻 址 机 制 也 是 与 SRAM 的 另 一 个 主要 区 别 。 参 考 图 7-13 中 给 出 的 两 个 大 小 分 别 
为 16Kibit 和 1Mibit 的 早期 DRAM 芯片 的 引 脚 分 布 图 。 首 先 ， 可 以 看 到 它们 都 带 有 几 个 不 常见 
的 信号 WRITE 、nRAS、nCAS、Din 和 Dout， 这 些 我 们 将 在 稍 后 介绍 。 其 次 ， 将 DRAM 的 引 脚 
分 布 与 图 7-11 所 示 的 SRAM 引 脚 分 布 相 比 较 ， 我 们 发 现 虽然 这 两 张 图 给 出 的 都 是 16Kibit 和 
1Mibit 大 小 的 两 个 存储 芯片 ， 但 在 SRAM 的 例子 中 ,右边 芯片 (1Mibit) 的 地 址 引 脚 数 比 左边 
芯片 (16Kibit) 的 多 6 个 ， 而 在 DRAM 的 例子 中 ， 右 边 芯片 的 地 址 引 脚 数 只 比 左边 芯片 多 了 3 
个 。 由 于 64 倍 容量 的 差别 在 地 址 空间 上 应 扩展 为 2 ， 所 以 应 该 需要 6 个 额外 地 址 引 脚 。 由 此 
看 来 DRAM 的 寻 址 没有 我 们 目前 所 看 到 的 那样 简单 ， 稍 后 将 进行 探讨 。 
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图 7-13 两 个 早期 DRAM 芯片 (16Kibit 的 4116 和 1Mibit 的 511000) 的 引 脚 图 。 这 两 个 芯片 都 只 输出 单 
个 位 数据 (因此 当 与 8 位 数据 总 线 连 接 时 需要 8 片 并 行 连接 ) 。 注 意 它们 的 控制 信号 都 是 一 样 
的 。 虽 然 右 边 芯片 的 容量 为 左边 芯片 容量 的 64 倍 , 但 只 多 出 3 个 地 址 引 脚 (A7 ~ A9) 。Vm、 
V.。、Vu 和 Vs。 分 别 是 不 同 的 电源 引 脚 


7.6.3.3 DRAM 的 寻 址 机 制 

首先 ， 需 要 提醒 的 是 ，DRAM 都 是 根据 行 ( 常 称 为 一 页 ) 和 列 一 起 寻 址 的 。 这 点 与 我 们 之 
前 讨论 的 那些 只 按 行 寻 址 的 存储 结构 不 一 样 。 事 实 上 ， 引 脚 分 布 与 如 图 7-13 所 示 的 引 脚 图 相 
似 的 DRAM 是 1 位 DRAM 一 一 为 了 构成 8 位 的 数据 总 线 ， 需 要 8 片 这 样 的 DRAM 并 行 执行 ， 每 
片 对 应 一 位 数据 。 这 些 并 行 芯 片 的 Dout 引 脚 分 别 依次 连接 到 数据 总 线 的 DD、D1、D2、D3 
等 上 。 

从 如 图 7-14 所 示 的 DRAM 内 部 结构 中 我 们 可 以 更 清楚 地 了 解 这 种 按 行 和 列 一 起 寻 址 的 机 
制 。 图 中 所 有 的 内 部 存储 单元 分 布 成 一 个 矩形 矩阵 ， 每 个 存储 单元 内 包含 一 个 晶体 管 和 一 个 用 
于 存储 电荷 的 电容 。 当 行 地 址 开关 (nRAS) 被 激活 时 ， 将 会 把 地 址 总 线 上 的 内 容 装 载 至 行 地 
址 锁 存 器 。 多 路 输出 选 通 器 根据 行 地 址 信号 匹配 确定 哪 行 (页 ) 将 要 输出 所 存储 的 电荷 。 列 
地 址 开关 (nCAS) 也 被 激活 ， 将 地 址 总 线 上 的 内 容 装 载 至 列 地 址 锁 存 器 ， 然 后 根据 列 地 址 信 
号 确定 所 选择 的 行 中 哪 一 位 将 要 被 选择 输出 。 

与 每 一 条 位 线 ( 列 ) 相连 的 输出 放大 器 负责 检测 所 选择 单元 电容 中 的 电荷 ， 并 将 其 充满 。 
由 此 ， 在 选择 某 一 页 之 后 ， 如 果 电 荷 比 位 线 上 的 某 个 装 值 大 ， 则 输出 放大 顺 输 出 一 个 电压 ， 对 
这 条 位 线 上 相连 的 单元 电容 进行 充电 。 如 果 所 检测 的 电压 低 于 阔 值 ， 则 输出 放大 器 不 会 输出 该 
电压 。 

实际 上 ,输出 放大 器 在 nRAS 选择 某 一 行 之 后 被 触发 ， 而 这 个 充电 过 程 也 是 自动 进行 的 ， 
即 DRAM 的 “刷新 ”过 程 不 需要 牵扯 列 地 址 ， 所 需 的 就 是 轮流 按 行 进行 刷新 《正如 之 前 所 提 
到 的 ， 大 部 分 支持 DRAM 或 SDRAM 的 CPU 都 将 自动 完成 这 个 过 程 )。DRAM 一 般 每 64ms 需要 
进行 一 次 刷新 ， 因 此 每 一 行 都 需要 轮流 在 此 时 间 内 被 选择 一 次 。 

当然 ,许多 DRAM 都 不 是 1 位 DRAM ， 而 是 字 节 型 或 字 型 的 。 这 种 情况 是 将 基本 的 DRAM 
在 一 个 芯片 上 复制 成 多 个 副本 。 图 7-15 所 示 是 一 个 与 8 位 总 线 连接 的 DRAM。 它 密度 很 低 ， 只 
是 一 个 256 位 的 存储 器 。 由 于 每 一 位 对 应 的 单元 都 为 4 行 8 列 ， 所 以 行 地 址 为 2 位 ， 列 地 址 为 
3 位 。 

一 个 16Kib 的 存储 〈 如 图 7-13 所 示 的 4116) 有 128 行 128 列 (128 x128 =16384)， 因 此 
需要 7 (2 =128) 条 地 址 线 来 对 这 些 单 元 进行 寻 址 。 一 个 与 总 线 相连 的 CPU 从 这 种 芯片 上 读 
取 一 位 的 步骤 如 下 (初始 时 所 有 信号 都 为 无 效 的 一 一 nRAS、nCAS、nWRITE 都 是 高 电 平 ): 
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图 7-14 DRAM 的 内 部 行 / 列 选择 机 制 示意 图 。 其 中 行 地 址 锁 存 器 和 列 地 址 锁 存 器 分 别 存储 行 地 址 和 列 地 
址 ， 行 地 址 和 列 地 址 都 由 相同 的 地 址 总 线 传输 ， 分 别 由 行 地 址 开关 (nRAS) 和 列 地 址 开关 
(nCAS) 控制 。 这 个 矩阵 的 输出 与 数据 总 线 上 的 一 位 相连 


1) 将 行 地 址 输出 到 地 址 总 线 上 。 

2) 启用 nRAS (将 其 从 逻辑 高 变 为 逻辑 低 ， 由 此 使 得 行 地 址 锁 存 器 能 够 捕捉 到 地 址 总 线 上 
的 行 地 址 ) 。 

3) 将 列 地 址 输出 到 地 址 总 线 上 。 

4) 启用 nCAS 以 锁 存 列 地 址 。 

5) 存储 器 将 在 一 定时 间 后 将 所 选择 的 存储 单元 的 内 容 输出 到 与 其 相连 的 数据 总 线 上 ， 这 
些 内 容 就 可 以 被 CPU 读 取 了 。 

6) 撤销 nCAS 并 停止 驱动 地 址 总 线 。 

7) 撤销 nRAS。 

通过 观察 我 们 知道 对 DRAM 进行 读 写 要 遵循 一 些 严格 的 时 序 。 有 一 点 是 明确 的 ， 由 于 每 存 
取 一 位 需要 两 个 地 址 对 其 进行 寻 址 ， 因 此 DRAM 的 存 取 速度 没有 像 SRAM 那 种 只 需 一 个 地 址 就 
能 进行 访问 的 存储 器 快 。 但 从 开销 和 密度 上 考虑 ， 这 是 可 以 容忍 的 : 如 图 7-13 所 示 ， 将 
16Kibit 的 DRAM 扩展 为 1Mibit 只 需 额 外 增加 3 条 地 址 线 ， 而 对 于 SRAM (图 7-11) 则 需 增 加 6 
条 。 对 于 更 大 密度 的 存储 ，DRAM 在 引 脚 数量 上 的 优势 则 更 为 明显 。 

为 了 避免 增加 引 脚 数量 ， 设 计 人 员 在 行 / 列 寻 址 机 制 上 找到 了 更 聪明 的 办 法 。 例 如 ， 对 同 
一 行 连续 读 就 可 以 避免 启用 nRAS 信和 号 〈 因 为 所 读 取 的 行 相 同 ， 其 地 址 也 相同 ) ， 读 - 写 或 
写 - 读 组 合 也 能 对 其 进行 简化 。 

这 些 技术 所 带 来 的 优势 巨大 ， 我 们 在 表 7-2 中 列举 了 一 些 。 表 中 列 出 的 第 一 项 创新 是 快 页 
模式 (fast page mode) ， 它 可 对 某 一 页 的 多 个 位 置 进行 读 从 而 不 需要 重复 启用 nRAS。 

DRAM 也 适合 用 作 视 频 卡 ， 称 为 视频 RAM( Video RAM，VRAM) 。 它 的 特征 是 拥有 两 个 数 
据 端口 用 于 从 存储 阵列 中 读 取 数据 。 一 个 端口 〈 与 主 CPU 相连 ) 用 于 处 理 器 对 存储 器 进行 读 
写 访 问 。 另 一 个 端口 与 视频 数 模 转 换 器 (Digital-to- Analogue Converter，DAC) 相连 接 ， 是 只 读 
的 ， 可 以 对 阵列 中 的 数据 进行 按 位 读 取 并 显示 在 屏幕 上 。 
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图 7-15 将 图 7-14 的 1 位 DRAM 复制 8 个 副本 构成 一 个 与 8 位 总 线 相 连接 的 DRAM。 对 所 有 内 部 块 而 言 
控制 信号 和 寻 址 信号 都 是 一 样 的 (实际 中 所 有 的 块 都 共享 同一 个 行 地 址 锁 存 器 和 同一 个 列 地 址 
锁 存 器 ) 
回 到 通用 DRAM， 扩 展 数据 输出 ( Extended Data Out，EDO) 类 型 的 存储 器 采用 了 一 个 内 
部 锁 存 器 保存 该 页 的 数据 ， 如 此 可 以 使 得 CPU 在 开始 读 取 下 一 页 时 仍 能 读 取 当前 页 的 数据 。 
这 实际 上 是 流水 线 的 一 种 形式 ， 可 以 通过 阻塞 多 个 读 操作 对 其 进行 优化 ， 如 此 这 些 读 操作 可 以 
一 起 执行 (在 EDO DRAM 的 突 发 模式 下 最 多 支持 4 个 读 操作 ) 。 特 别 是 对 于 多 片 存储 ， 如 果 能 
够 良好 地 对 存储 块 进行 交织 ， 则 可 以 交错 读 取 存储 块 ， 从 而 进一步 提高 存 取 速度 。 
至 此 ， 之 前 所 提 到 的 各 DRAM 变型 虽然 都 由 CPU 控制 , 但 它们 与 CPU 都 是 异步 的 ， 而 
CPU 自身 是 同步 的 。 而 事实 上 很 明显 ， 如 果 需 要 进一步 提高 这 些 存储 设备 的 性 能 ， 就 需要 利用 
总 线 时 钟 ， 由 此 同步 DRAM (SDRAM) 就 被 发 明 出 来 了 。 同 步 使 得 存储 设备 能 够 提前 预 取 数 
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据 以 便 为 下 一 个 时 钟 周期 做 好 准备 ， 从 而 能 够 更 好 地 通过 交织 内 部 存储 访问 或 使 用 其 他 技术 来 
对 读 写 操作 进行 流水 化 处 理 。 

SDRAM 性 能 的 最 大 改善 来 自 提高 它们 的 时 钟 频 率 和 允许 在 存储 时 钟 的 上 升 沿 和 下 降 沿 都 
进行 数据 传输 ( 即将 每 个 周期 传输 一 个 字 变 为 每 周期 传输 两 个 字 一 一 一 个 在 下 降 沿 传 输 ， 男 一 
个 在 上 升 沿 传输 ) 。 这 就 是 所 谓 的 双 倍 数据 速率 SDRAM (DDR SDRAM)。 


7.7 分 页 与 重 又 

我 们 在 7.6 节 中 见识 了 真正 的 存储 器 设备 ， 现 在 再 来 回顾 一 下 4.3 节 中 介绍 的 内 存 管理 单 
元 (MMU)。MMU 的 配置 通常 被 认为 是 一 个 相当 复杂 的 话题 (作者 有 真实 经 历 ， 在 十 分 紧迫 
的 工程 时 间 约 束 下 使 用 低级 汇编 语言 实际 配置 MMU 是 十 分 困难 的 ) 。 

在 大 部 分 拥有 MMU 的 系统 中 ， 存 储 页 和 外 部 大 容量 存储 设备 进行 进出 交换 ， 这 些 大 容量 
存储 设备 通常 都 是 硬盘 。 存 储 器 管理 系统 保存 着 这 些 页 面 信息 ， 在 任意 时 刻 知 道 它们 是 存放 在 
内 部 存储 器 上 还 是 外 部 硬盘 上 ， 并 且 可 以 根据 CPU 的 指令 来 进行 载 人 或 者 保存 操作 。 

MMU 功能 是 长 期 创新 和 逐渐 改进 的 结果 ， 但 是 现在 往 回 退 几 代 ， 我们 来 考察 一 下 在 没有 
MMU 的 情况 下 如 何 设 计 。 这 并 不 是 一 个 简单 的 思想 实验 ， 在 现代 睦 入 式 处 理 器 中 通常 都 会 受 
到 片上 存储 的 限制 ， 设 计 者 经 常会 耗 尽 处 理 器 上 的 RAM 空间 。 

让 我 们 考虑 一 种 真实 情况 ， 软 件 工程 师 正 在 为 一 部 手机 中 的 艇 入 式 处 理 器 开发 控制 程序 。 
临近 开发 末期 他们 所 编写 的 代码 规模 以 及 所 要 占用 的 存储 空间 分 别 如 下 : 

e 运行 时 存储 : 18KiB 的 RAM 

。 程序 存储 : 15KiB 的 ROM 

可 能 发 生 的 情况 是 处 理 器 只 有 16KiB 的 内 部 RAM， 明 显 不 能 满足 程序 执行 和 存储 要 求 。 
如 果 在 系统 中 片上 存储 或 者 并 行 外 部 ROM 可 用 ,那么 程序 就 可 以 直接 从 这 些 存储 器 上 执行 
(但 是 任何 读 写 代码 一 般 都 存放 在 RAM 中 ， 大 部 分 情况 下 所 谓 的 ROM 可 能 实际 上 是 闪存 )。 
然而 ， 让 我 们 假设 这 种 情况 下 可 提供 的 闪存 是 1MiB， 并 连接 在 一 个 25MHz 的 SPI ( 串 行 外 设 
接口 ) 串口 上 。 

然而 ， 从 这 些 存 储 器 上 执行 代码 实在 是 太 慢 了 。 

事实 上 ， 设 计 者 很 关注 系统 的 时 间 特 性 。 从 上 电 开 始 ， 这 个 处 理 需 在 程序 开始 执行 之 前 ， 
用 了 将 近 Sms 来 将 程序 代码 从 闪存 中 读 入 RAM(15 x 1024 x8bit/25 x10"s)。 

假设 不 考虑 提高 代码 效率 和 采用 更 多 RAM 的 解决 方案 ， 设 计 者 必须 在 系统 中 采用 重 县 
(overlay) 技术 来 适应 当前 的 存储 器 配置 。 这 个 技术 的 使 用 原则 是 所 有 软件 并 不 都 在 同一 时 刻 
运行 ， 事实 上 ， 软 件 的 某 些 部 分 是 互 斥 的 。 例 如 ， 无 线 设备 软件 允许 设备 运行 在 传统 模式 ， 设 
备 在 上 电 时 可 以 选择 是 普通 模式 或 者 传统 模式 ， 但 是 不 能 同时 选择 两 个 模式 。 记 住 这 些 ， 就 不 
难 解释 为 什么 这 两 种 模式 的 软件 程序 不 应 该 一 起 存放 在 RAM 中 ， 而 是 在 具体 的 模式 被 选择 时 
再 载 人 所 对 应 的 程序 。 

设计 者 因此 将 所 要 执行 的 代码 分 为 两 个 可 执行 部 分 或 者 重 芭 部 分 。 一 部 分 是 传统 模式 的 ， 
一 部 分 是 普通 模式 的 。 这 种 做 法 看 上 去 不 是 很 高 效 ， 因 为 两 个 部 分 共享 很 少 的 功能 ， 而 且 共享 
的 功能 可 能 要 提供 两 次 ， 也 就 是 对 两 个 重 释 部 分 分 别提 供 。 另 外 还 需要 一 个 额外 的 代码 初始 化 
选择 器 来 实现 两 个 重 倒 部 分 之 间 的 切换 (实际 上 需要 选择 使 用 哪 一 部 分 ， 然 后 在 加 载 后 执 
行 ) 。 那 么 这 种 做 法 是 一 种 解决 方案 吗 ? 

考察 下 面 的 情形 ， 代 码 所 需 的 存储 规模 如 下 所 示 

。 在 普通 模式 下 运行 所 需要 的 运行 时 存储 容量 : 12KiB 。 

。 在 传统 模式 下 运行 所 需要 的 运行 时 存储 容量 : 10KiB。 
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。 重合 选择 器 的 代码 规模 : ROM 中 的 1KiB。 

。 普通 模式 下 的 代码 规模 : ROM 中 的 10KiB。 

。 传统 模式 下 的 代码 规模 : ROM 中 的 9KiB。 

所 占用 的 闪存 总 和 为 1+10 +9 =20KiB( 上 面 的 方案 需要 15KiB)。 然 而 ， 这 对 于 1MiB 的 内 
存 来 说 并 不 是 问题 。 

但 是 开启 速度 如 何 呢 ? 一 些 工 程 师 很 关心 这 种 方法 是 否 会 让 软件 的 开启 速度 变 慢 。 从 实验 
结果 中 可 以 看 到 这 种 方法 实际 上 使 得 开启 速度 变 快 了 。 

在 普通 模式 下 只 需要 3. 6ms 就 可 以 将 11KiB 的 数据 传送 完毕 ， 在 此 加 入 了 选择 代码 ， 它 们 
的 执行 时 间 可 以 忽略 不 计 ， 因 此 总 的 时 间 为 11 x 1024 x 8bit/25 x 10"s。 

在 传统 模式 下 ， 开 启 速度 只 需要 3.3ms(10 x1024 x8bit/25 x10"s)。 

总 之 ， 在 使 用 重 蚕 技术 后 ， 这 两 种 模式 下 的 开启 时 间 及 在 RAM 上 的 运行 时 间 都 有 所 优化 ， 
尽管 需要 更 多 的 软件 空间 和 ROM 空间 。 

没有 MMU 对 存储 器 进行 管理 ， 对 于 代码 体积 大 于 RAM 本 身 的 这 种 情况 ， 其 处 理 方法 很 直 
观 : 编写 一 个 和 选择 器 一 样 简单 的 重叠 模 块 载 人 程序 ， 在 两 个 执行 文件 间 进 行 切 换 ， 或 者 设计 
一 个 更 复杂 的 重 秋 文件， 其 自身 就 包含 一 部 分 选择 和 载 人 代码 ， 来 自行 选择 和 载 入 下 一 个 重生 
模块 。 

然而 ， 对 于 现代 伦 入 式 处 理 器 来 讲 还 有 另外 一 个 选择 一 一 使 用 一 个 先进 的 操作 系统 ， 这 个 
系统 可 以 模仿 MMU 的 部 分 功能 。 一 个 很 著名 的 例子 就 是 uCLinux， 这 是 一 种 针对 不 含 MMU 的 
处 理 器 的 Linux， 该 操作 系统 中 包含 很 多 标准 的 已 编译 Linux 代码 ， 包 括 闪 存 文件 系统 、 现 场 执 
行 (execute-in-place，XIP) 驱动 器 等 。 

最 后 一 点 : 这 种 重 芭 方法 也 适用 于 FPGA (现场 可 编程 门 阵列 ) 技术 。 这 种 设备 可 以 通 
过 重新 编程 完全 改变 它们 的 固件 功能 ， 顾 名 思 义 ,它们 可 以 在 任何 地 方 ( 其 至 现场 ) 对 设备 
进行 编程 。 我 们 可 以 考虑 时 下 比较 热门 的 一 个 概念 一 软件 定义 的 无 线 电 (Software Defined 
Radio，SDR) ， 其 含义 是 指 采用 通用 硬件 来 实现 多 种 数字 无 线 电 处 理 。 这 种 设计 思想 允许 设备 
载 人 多 种 译 码 结构 中 的 一 个 来 匹配 当前 频率 下 的 通信 模式 。 一 个 前 端 选择 器 监控 当前 的 无 线 信 
号 频率 ， 并 且 决 定 哪 种 调制 方法 适用 于 当前 频率 ， 之 后 把 相应 的 固件 载 人 FPGA 中 来 解 调和 译 
码 当 前 信号 。 由 此 看 来 ， 在 未 来 几 年 的 移动 电话 中 ,重合 技 术 将 会 有 用 武之 地 。 


7.8 姥 入 式 系统 中 的 存储 


大 部 分 计算 机 体系 结构 教材 都 会 介绍 大 型 计算 机 的 存储 系统 ， 甚 至 包括 共享 存储 的 并 行 处 
理 机 ,但 是 忽略 了 对 组 入 式 系统 的 讨论 。 

内 入 式 系统 与 台式 计算 机 在 存储 器 使 用 上 有 很 多 不 一 样 的 地 方 。 尽 管 嵌 人 式 系 统 应 用 于 不 
同 设备 ， 外 形 大 小 各 异 ， 但 现代 做 入 式 系统 中 的 大 规模 存储 通常 使 用 闪存 ， 而 在 台式 计算 机 则 
使 用 硬盘 (如 3.2.2 节 的 内 存 金字 塔 所 示 ) 。 

在 这 里 ， 我 们 来 观察 一 个 典型 的 敌人 式 系统 ， 它 基于 ARM9 并 且 运 行 戏 人 式 Linux 操作 系 
统 。 我 们 所 提供 的 这 种 结构 在 中 等 规模 的 散 入 式 系 统 中 非常 典型 。 我 们 也 可 以 设计 一 个 更 小 规 
模 的 系统 ， 其 最 大 RAM 约 为 100Kibit， 这 种 系统 能 够 运行 一 个 单片机 实时 操作 系统 (在 一 个 
可 执行 模块 中 包含 一 个 操作 系统 、 应 用 程序 和 引导 程序 ) ; 我 们 还 可 以 构建 一 个 类 似 PC 的 较 
大 系统 ， 其 中 采用 小 型 x86 处 理 器 ， 相 当 于 精简 的 低 功 耗 PC。 

如 图 7-16 所 示 是 一 个 中 等 规模 的 系统 (这 是 现实 中 存在 的 ， 包 含 一 个 三 星 S3C2410) ， 非 
易 失 的 程序 代码 存放 在 闪存 中 ， 易 失 的 运行 代码 和 数据 存放 在 SDRAM 中 。 闪 存 为 16 位 宽 ， 
SDRAM 则 为 32 位 (这 里 使 用 了 两 个 16 位 宽 的 SDRAM ) 。 
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图 7-16 基于 ARM 的 代入 式 系 统 的 存储 配置 示意 图 ， 并 给 出 了 
系统 正常 操作 过 程 中 闪存 和 SDRAM 的 内 容 


在 图 7-16 的 靠 下 面部 分 可 以 看 到 每 个 类 型 的 存储 器 在 执行 过 程 中 所 包含 的 内 容 ， 而 我 们 
仅 考 虑 在 三 个 阶段 的 操作 过 程 中 的 存储 天 内容。 


7. 8. 1 非 易 失 存 储 器 

在 处 理 器 断 电 期 间 ， 只 有 闪存 中 的 内 容 能 够 得 到 保存 ，SDRAM 基本 上 是 空白 的 。 当 ARM 
处 理 器 上 电 或 者 复位 后 ，CPU 就 开始 载 入 指令， 并 从 0x0000 0000 地 址 处 执行 一 段 程序 。 在 这 
种 情况 下 ， 如 大 部 分 能 入 式 系统 一 样 ， 闪 存 被 分 配 到 上 面 这 个 起 始 地 址 。 因 此 ， 闪 存 中 的 第 一 
条 指令 将 在 复位 后 立即 执行 。 

CPU 将 直接 从 闪存 上 读 取 指令 和 数据 。 引 导 加 载 程序 需要 完成 一 些 重要 任务 ， 例 如 重新 设 
置 处 理 器 状态 ， 关 掉 看 门 狗 定 时 器 ( 见 7.11 节 )， 并 且 复 位 SDRAM。 这 也 是 大 部 分 敌人 式 开 
发 者 需要 学 习 一 些 SDRAM 知识 的 原因 ， 我 们 需要 在 引导 加 载 程序 执行 的 过 程 中 配置 这 些 存 
储 器 。 

有 很 多 免费 的 引导 加 载 程序 可 以 选择 ， 比 如 流行 的 U-boot。 设 计 者 也 会 自己 编写 为 实现 特 
定 功 能 而 定制 的 引导 加 载 程序 ， 这 并 不 少见 。 引 导 加 载 程序 可 以 完成 的 功能 如 下 : 

e 完成 上 电 自 检 (POST) 。 

。 设置 存储 右 ， 特 别 是 SDRAM。 

e 设置 CPU 寄存 器 ， 比 如 用 于 时 钟 分 频 、 功 耗 控制 、MMU 、cache 等 。 
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发 出 一 条 信息 给 串口 、LCD 显示 屏 等 。 

随机 等 待 用 户 干 预 ( 比如 说 “ 按 任意 键 进入 启动 菜单 ”"， 或 者 “等 待 5 秒 后 继续 ”等 ) 。 
将 内 核 或 者 内 存盘 (ramdisk) 从 闪存 载 人 SDRAM。 

跳 转 到 起 始 地 址 上 执行 代码 ( 比如 内 核 )。 

检测 内 存 。 

擦 写 闪 存 上 的 块 。 

将 新 的 内 核 或 者 RAM 磁盘 载 人 SDRAM 。 

将 SDRAM 中 一 个 内 核 或 者 RAM 磁盘 写 入 闪存 。 

在 我 们 所 考虑 的 系统 中 ， 有 三 项 需要 载 入 闪存 : 第 一 项 ,在 闪存 的 “底部 ”， 也 就 是 
0x00000000 地 址 处 ， 存 放 引 导 加 载 程序 ， 第 二 项 是 经 过 压缩 的 RAM 磁盘 ; 第 三 项 是 操作 系统 
内 核 。 

对 骨 入 式 Linux 操作 系统 也 进行 划分 ， 其 中 RAM 磁盘 (代替 台式 系统 中 的 硬盘 ) 包含 了 
应 用 软件 和 数据 ， 而 内 核 包 含 了 操作 系统 最 基本 的 执行 模块 。RAM 磁盘 实际 上 是 一 个 文件 系 
统 ,， 包含 了 各 种 文件 ， 有 些 是 可 执行 的 ， 所 有 这 些 文件 以 gzip 形式 进行 压缩 ,一 般 会 在 1MB 
或 2MB 这 个 数量 级 上 。 

内 核 是 操作 系统 的 核心 部 分 ， 包 含 了 所 有 的 系统 级 功能 、 内 置 的 驱动 、 底 层 的 访 存 程序 等 。 
内 核 程序 是 不 可 改变 的 ， 即 使 由 于 新 的 应 用 软件 出 现 而 有 可 能 更 新 RAM 磁盘 。 在 代入 式 Linux 
中 ， 引 导 加 载 程序 最 先 执行 内 核 以 开始 系统 运行 ， 然 而 ， 内 核 和 RAM 磁盘 必须 放置 在 正确 的 存 
储 区 域 。 该 过 程 主要 与 操作 系统 密切 相关 ， 我 们 将 在 第 9 章 进一步 讨论 (具体 参见 9.5 节 )。 

前 述 内 容 主要 适用 于 中 型 和 大 型 府 人 式 系统 。 对 于 小 型 系统 ， 往 往 可 配置 性 更 低 ， 通 常 直 
接 从 操作 代码 中 启动 。 例 如 ， 框 7.4 中 描述 了 小 型 府 人 式 处 理 器 (德州 仪器 公司 的 MSP430xl ) 
的 存储 器 配置 和 启动 过 程 。 其 中 不 包含 外 部 数据 或 地 址 总 线 ， 没 有 ramdisk 和 单独 的 启动 程序 
和 内 核 ， 也 不 需要 解压 缩 ， 所 有 过 程 都 在 内 部 发 生 (与 配 有 复杂 启动 过 程 的 系统 相 比 ， 它 的 启 
动 时 间 更 短 ) 。 

MSP430 中 的 存储 映射 

MSP430 是 一 个 典型 的 拥有 大 量 内 部 功能 的 小 型 低 功 耗 微 控 制 器 ， 这 些 功 能 大 部 分 通过 映射 到 存储 空 
间 上 的 片上 集成 外 设 实现 。 

如 下 图 所 示 是 MSP430xlxxx 系列 处 理 器 的 存储 映射 图 ， 底 部 为 0 地 址 。 图 中 的 不 同 部 分 有 不 同 的 宽 
度 ， 有 些 是 8 位 宽 而 有 些 是 16 位 宽 。 因 为 该 器 件 中 存在 处 理 不 同 宽度 数据 的 外 设 ， 因 此 TI 就 按 读 写 数 
据 宽 度 划 分 存储 映射 空间 。 例 如 ， 设 置 寄存 器 和 数据 寄存 器 是 一 个 8 位 的 外 设 ， 位 于 地 址 0x10 和 OxFF 
之 间 。 


OxFFFF 
0xFFE0 
0xFFDF 
登 | 
地 | A / : 
耻 | 9 可 以 购买 具有 不 同 容量 
证 内 存 的 MSP430， 因 此 该 
区 域 大 小 根据 实际 设备 的 
0x0200 
车 了 到 到 下 OxO1FF 
a 0x0100 
: - OXOOFF 
FE 0 
0x0000 
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在 图 的 底部 是 特殊 功能 寄存 器 ， 用 于 控制 整个 系统 、 处 理 器 以 及 其 他 部 分 (如 功 耗 和 时 钟 )。 处 理 
器 的 中 断 向 量 表 在 映射 的 顶部 ， 这 意味 着 一 旦 设备 重启 ,将 从 这 部 分 读 取 指令 开始 执行 。 基 于 这 个 原因 ， 
包含 引导 程序 的 非 易 失 存储 器 一 般 都 会 放置 在 存储 上 映射 的 顶部 。RAM 位 于 较 低位 置 。 

有 趣 的 是 ，TI 提供 了 很 多 种 类 的 MSP 设备 供 选 择 ， 每 个 设备 都 有 不 同 的 可 选 特征 、 外 设 以 及 不 同 规 
模 的 闪存 /ROM 和 内 部 RAM。 它 们 的 存储 映射 相同 ，RAM 的 上 边界 和 ROM 的 下 边界 除外 ， 它 们 的 位 置 
视 各 自 的 具体 规模 而 定 。 


7. 8.2 其 他 存储 器 


很 多 设备 都 有 一 个 并 行 接口 ， 使 其 能 够 加 入 CPU 存储 上 映射 中 ， 其 中 包括 一 些 外 置 设 备 ， 
比如 存储 器 、 以 太 网 芯片 和 硬盘 接口 ， 也 有 一 些 内 部 设备 的 接口 ， 比 如 SoC 上 集成 的 外 设 。 

然而 ， 还 有 另外 一 类 常见 的 实体 也 可 以 加 入 存储 映射 中 ， 这 就 是 系统 和 外 设 控 制 寄存 器 。 
框 7.4 介绍 了 MSP430 的 存储 映射 〈 在 存储 映射 的 底部 ， 从 特殊 功能 寄存 器 开始 ， 接 着 是 外 设 
控制 寄存 器 ) 。 事 实 上 ， 如 果 查 看 框 7.2 中 给 出 的 MSP430 控制 引 脚 描述 ， 可 以 发 现 一 些 我 们 
在 这 里 所 讲 的 寄存 器 。 

所 有 这 些 寄存 器 在 MSP430 数据 手册 中 都 有 详细 说 名 称 

















地 址 
明 ， 它 们 都 可 以 在 存储 映射 中 找到 ， 这 也 意味 着 它们 将 占 P2DIR 0x02A 
据 具 体 的 处 理 器 存储 器 地 址 。 对 于 框 7. 2 中 提 到 的 特定 寄 P2IN 0x028 
存 器 来 说 ， 这 些 寄存 器 可 以 在 右面 这 些 地 址 中 找到 。 P20UT 0x029 
这 样 ， 通 过 对 这 些 地 址 进行 读 写 就 可 以 控制 或 者 查询 SE OU 

这 些 寄存 器 。 


对 于 我 们 查看 的 这 几 个 寄存 器 ， 回 顾 一 下 存储 映射 图 ， 可 以 发 现 它 们 在 8 位 外 设 模 块 部 
分 ， 这 正 是 我 们 所 期 待 的 ， 因 为 端口 〈 以 及 相应 的 控制 寄存 器 ) 宽度 为 8 位 。 
如 果 用 C 语言 进行 编程 ， 那 么 读 写 这 些 寄 存 器 最 安全 的 代码 如 下 : 


unsigned char read result; 

void *addr; 

read result = *((volatile unsigned char *) addr); // 读 
*((volatile unsigned char *) addr) = OxFF; // 写 


为 什么 要 使 用 volatile 关键 字 ? 

许多 编译 器 在 进行 编译 时 如 果 发 现在 一 个 程序 中 有 对 同一 个 地 址 进行 连续 两 次 写 入 操作 ， 
则 会 删 掉 第 一 个 写 入 以 提高 程序 效率 。 例 如 ， 如 果 一 个 程序 想 要 在 X 位 置 上 存储 一 个 值 ， 然 后 
在 几 个 时 钟 周期 后 再 在 相同 位 置 上 写 人 ， 且 两 个 写 人 操作 之 间 没 有 读 操作 ， 显 然 第 一 个 写 和 人 操 
作 是 浪费 时 间 一 一 不 管 第 一 次 写 信 了 什么 内 容 都 会 被 后 面 的 写 操作 所 覆盖 。 

对 RAM 进行 写 人 时 是 这 样 的 。 然 而 ， 有 些 情 况 下 ， 我 们 需要 合法 地 对 同一 地 址 进行 重复 
写 和 人 操作， 比如 在 一 个 闪存 上 改写 算法 或 者 写 信 地址 对 应 的 是 一 个 有 存储 映射 的 寄存 器 。 

这 里 的 一 个 例子 就 是 串口 单元 的 输出 数据 寄存 器 。 一 个 程序 员 想 要 设置 好 串口 然后 连续 输 
出 2 字 节 的 数据 ， 这 就 需要 一 个 字 节 接 一 个 字 节 地 写 人 有 存储 映射 的 串口 输出 寄存 器 。 

这 时 volatile 关键 字 会 告诉 编译 器 这 个 写 人 是 “ 易 失 的 ”"， 也 就 是 说 需要 刷新 。 这 样 编译 器 
会 让 这 个 连续 写 和 完成， 不 删 掉 前 一 个 写 入 。 

编译 器 并 不 是 只 能 发 现 连续 写 操作 ， 也 可 以 发 现 连续 读 操 作 ， 并 且 尽 可 能 地 优化 成 一 个 读 操 作 。 

连续 读 出 现在 代码 中 也 很 正常 ， 事 实 上 ， 编 译 器 会 插入 读 操 作 作为 泄漏 代码 的 一 部 分 
(3.4.4 节 )。 然 而 ， 对 于 程序 设计 者 而 言 这 部 分 代码 并 非 设计 初衷。 

当然 ， 正 如 上 文 所 述 ， 连 续 读 和 连续 写 一 样 必要 。 例 如 ， 在 串口 输入 寄存 器 中 读 出 一 组 连 
续 的 数据 ， 或 者 轮 询 串口 状态 寄存 器 以 检测 发 送 缓存 是 否 为 空 。 以 上 这 些 情 况 ， 正 如 连续 写 和 人 
一 样 ，volatile 关键 字 会 告诉 编译 器 这 种 连续 读 是 故意 设计 的 ， 不 可 优化 掉 。 
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与 上 面 类 似 ， 也 可 以 使 用 volatile 定义 一 个 易 失 性 变量 类 型 : 


volatile unsigned char * pointer; 


7.9 测试 和 验证 

测试 和 验证 会 覆盖 所 有 的 章节 ， 旨 在 解决 计算 中 存在 的 实际 问题 ， 尤 其 是 在 嵌入 式 计算 
中 。 引 入 测试 和 验证 的 主要 原因 是 计算 性 能 的 提高 使 得 处 理 器 变 得 越 来 越 复杂 和 庞大 ， 但 这 也 
会 让 处 理 器 的 设计 和 制造 变 得 更 困难 。 另 外 ， 测 试 和 验证 会 导致 需要 在 设备 中 加 入 测试 支持 和 
错误 控制 机 制 。 


7.9.1 集成 电路 设计 和 制造 问题 


在 20 世纪 70 年 代 ， 工 程 师 一 个 人 不 可 能 了 解 和 检测 一 个 完整 的 现代 处 理 器 。 虽 然 良 好 的 
团队 合作 和 卓越 的 设计 工具 大 量 替代 了 手工 检测 ， 但 是 在 集成 电路 设计 上 依然 容易 出 现 错误 。 
事实 上 ,我 们 在 处 理 器 第 一 版 发 布 时 不 能 保证 完全 找 不 到 硬件 设计 错误 。 大 部 分 错误 只 是 小 麻 
烦 ， 它 们 可 以 简单 地 通过 软件 设置 来 修复 ， 比 如 当 串 口 工作 时 ， 在 模式 发 生变 化 后 总 是 需要 加 
人 一 条 NOP 指令 。 而 其 他 的 错误 可 能 是 更 严重 的 。 

Intel 80486 处 理 器 的 FDIV 错误 是 一 个 比较 著名 的 设计 错误 ， 幸亏 发 现 它 的 时 候 卖 出 和 安 
装 进 计 算 机 的 处 理 器 只 有 几 千 个 而 不 是 上 百 万 个 。 这 虽然 只 4 是 一 个 百 万 分 之 一 的 错误 ， 可 以 保 
证 在 几 个 月 中 不 被 检查 出 来 ， 但 是 会 让 公司 在 经 ea 
济 上 和 公共 关系 上 付出 沉重 的 代价 。 

制造 过 程 中 的 错误 更 为 常见 。 粗 略 对 比 一 下 
现在 顶级 PC 中 的 PCB 板 和 在 20 世纪 80 年 代 所 
设计 的 同类 产品 ， 不 仅 可 以 看 到 在 硅 片 中 集成 各 
种 分 立 部 件 是 一 个 循序 渐进 、 不 断 整合 的 过 程 ， 
还 能 发 现 现在 的 电路 板 设计 带 有 大 量 的 引 脚 和 球 
栅 阵 列 。 如 图 7- 17 所 示 的 就 是 三 星 S3C2410 
ARM 处 理 器 底面 的 BGA (Ball Grid Array， 球 机 
阵列 ) 照片 。 可 以 看 到 当 加 热 焊锡 到 焊接 相对 应 
的 PCB 板 表面 焊 盘 时 ， 这 些小 的 焊接 锡 点 就 会 图 7-17 ARM 处 理 器 底面 的 球 栅 阵列 
熔化 。 (器 件 尺 寸 为 14mm x 14mm) 

BGA 通过 很 紧凑 有 效 的 方法 连接 IC 和 PCB， 但 这 使 得 调试 和 修复 变 得 困难 了 。 基 于 之 前 几 
代 的 IC 封装 技术 ， 可 以 对 在 顶部 可 见 的 外 部 成 复 连 接点 进行 探测 。 而 BGA 技术 将 连接 点 隐藏 在 
它 的 底层 ， 几 乎 只 能 通过 X 光 才 能 检查 已 安装 在 PCB 上 的 每 一 个 连接 点 。 图 7-18 展示 的 就 是 通 
过 X 光 所 看 到 的 一 个 封装 效果 ， 在 这 里 IC 的 内 部 结构 和 IC 下 面 PCB 的 细节 都 是 可 见 的 。 

诸多 的 设计 功能 集成 在 单个 硅 片 设 备 上 ， 例 如 在 现代 个 人 计算 机 上 的 SuperIO 芯片 。 因 此 
需要 集成 原 有 设备 使 用 的 外 部 接口 ， 例 如 要 连接 类 似 硬盘 、 光 盘 、 软 盘 驱动 器 之 类 的 存储 媒 
介 ， 这 也 是 影响 器 件 大 小 的 主要 因素 。 使 用 多 引 脚 的 设计 已 经 出 现 大 概 30 年 了 。USB、 
Firewire 和 SATA 〈 串 行 ATA) 等 现代 接口 技术 使 用 较 少 的 引 脚 绝 非 偶然 ， 这 样 导 致 大 多 数 IO 
连接 器 支持 传统 的 接口 而 非 支 持 这 种 现代 接口 ， 因 此 看 起 来 旧 的 ISA、EISA、IDE、SCSI 和 软 
盘 等 接口 会 最 终 消 失 ， 从 而 产生 更 小 的 SuperIO = 芯片。 


名 SuperIO 是 一 种 大 的 IC 的 名 字 ， 这 种 IC 通过 PC 母 板 提供 胶 连 逻辑 和 系统 功能 且 围 绕 CPU 工作 ， 例 如 ， 内 
存 驱动 器 、USB 接口 、 并 口 以 及 串口 等 。 
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图 7-18 IC (方形 扁平 封装 ) 的 X 光 照片 ， 可 以 看 到 IC 封装 、 引 线 框 和 内 部 硅 片 


现在 回 过 头 看 测试 和 验证 ， 具 有 大 量 0O 连接 的 芯片 测试 主要 存在 两 个 问题 。 

首先 ， 生 产 IC 时 一 般 需 要 经 过 测试 。 有 些 制造 商 倾 向 于 只 使 用 批 处 理 测试 ， 而 有 些 对 于 
错误 零 容 忍 ， 会 测试 每 个 器 件 。 这 些 测试 需要 覆盖 两 个 主要 的 制造 步骤 : 生产 硅 芯 片 和 在 其 上 
附加 引 脚 / 锡 球 。 

其 次 ， 还 有 一 小 概率 事件 一 一 每 个 焊接 点 是 否 工 作 ， 电 路 板 制造 错误 率 大 约 与 焊接 的 引 脚 
数 成 正比 。 因 此 拥有 大 量 IO 引 脚 的 设备 就 会 更 容易 出 问题 ， 需 要 一 种 验证 方法 判断 这 些 引 脚 
焊接 点 是 否 正确 。 

为 清晰 起 见 ， 我 们 将 这 些 技术 分 为 两 类 ， 并 在 下 面 分 小 节 讨 论 计算 机 处 理 器 测试 中 所 用 的 
解决 方法 。 

1) 设备 制造 测试 一 一 用 于 在 设备 离开 半导体 制造 三 前 确保 集成 电路 能 正常 工作 。 更 多 细 
节 参 考 以 下 章节 : 

e 7.9.2 节 ，BIST(Built-In Self-Test， 内 置 自 测 ) 

e 7.9.3 节 ，JTAG(Joint Test Action Group ， 联 合 测试 行动 小 组 ) 

2) 运行 时 测试 和 管理 一 一 这 是 为 了 保证 最 终 制造 的 系统 能 正常 工作 (涉及 之 前 的 BIST 和 
JTAG 技术 ) 。 将 在 以 下 章节 中 探讨 : 

e 7.10 节 ，EDAC(Error Detection and Correction ， 错 

误 检 测 与 纠正 ) 
。 7.11 节 ， 看 门 狗 定时 器 与 复位 监测 


Ti9:2 BIlST 


BIST 是 特定 于 器 件 的 片上 硬件 资源 ， 主 要 用 于 协助 测 
试 器 件 内 部 功能 。 举 个 例子 ， 当 硅 圆 片 离 开 硅 蚀刻 生产 线 或 
者 单个 IC 已 经 被 封装 待 出 售 时 ， 测 试 机 器 会 使 用 BIST。 有 
时 候 ， 人 允许 客户 访问 内 部 的 BIST 单元 来 验证 自己 的 设计 。 本 

BIST 单元 可 以 在 某 种 程度 上 隔离 待 测试 的 1C 部 分 ，。 四” 辣 是 则 站 二 可 全 
向 该 部 分 输入 已 知 值 和 状态 ， 然 后 检查 这 部 分 输出 是 否 正 bind biteagih eles 
确 。 这 些 可 以 概略 地 通过 图 7-19 表示 ， 在 测试 模式 下 数据 输出 的 正确 性 





多 路 选 通 器 
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通过 多 路 选 通 器 从 BIST 单元 出 来 或 者 进入 BIST 单元 。 

BIST 还 可 以 用 于 CPU 测试 各 种 外 设 单元 的 内 部 程序 。 这 种 情况 下 往往 需要 某 种 方法 验证 
外 设 单元 的 功能 正确 性 ， 例 如 需要 一 个 回路 。BIST 单元 可 以 实现 这 个 功能 ， 如 图 7-20 所 示 ， 
其 中 在 测试 模式 下 多 路 选 通 器 将 模拟 输出 信号 反馈 到 外 设 输入 端口 。 





图 7-20 内 置 自 测 单元 可 以 用 于 测试 或 设置 来 往 于 某 单元 外 部 引 脚 及 
其 内 部 逻辑 之 间 的 输入 /输出 信号 


反馈 外 部 信号 意味 着 制造 商 可 以 生成 一 个 测试 序列 ， 通 过 模拟 输出 驱动 器 (例如 EIA232 
串口 包括 一 个 负电 压 信 号 电 平 ) 输出 ， 然 后 通过 模拟 输入 ， 从 而 验证 串口 硬件 、 输 出 驱动 或 组 
冲 以 及 输入 检测 需 。 

片上 测试 方法 能 简单 、 方 便 地 测试 IC 上 所 有 逻辑 和 许多 模拟 单元 ， 但 是 这 会 增加 硅 片 面 
积 和 复杂 度 。 这 来 源 于 三 个 部 分 的 开销 : 

。 BIST 单元 本 身 。 

。 每 个 被 测 单元 和 IO 端口 需要 多 路 选 通 器 或 类 似 的 开关 电路 。 

。 从 BIST 单元 到 每 个 选 通 器 的 开关 和 数据 连 线 。 

BIST 单元 并 不 是 很 复杂 ， 容 易 扩展 到 更 大 规模 的 设计 中 。 对 于 大 多 数 逻 辑 实体 来 说 ， 增 加 输 
和 人 和 输出 选 通 器 并 不 会 明显 增加 逻辑 大 小 。 然 而 ,从 BIST 到 每 个 测试 点 的 数据 和 开关 是 一 个 问 
题 。 测 试 数据 通路 时 可 能 需要 操作 在 同一 个 时 钟 频 率 上 ， 并 需要 一 组 并 行 线路 连接 输入 和 输出 总 
线 。 这 些 线路 (或 者 硅 片 IC 上 的 金属 /多 蝇 硅 通道 ) 必须 从 芯片 的 各 个 部 分 连接 到 集中 式 的 BIST 
单元 上 。 这 种 布线 使 得 IC 设计 非常 困难 且 显 著 增加 了 代价 。 将 BIST 电路 化 分 成 许多 更 小 的 单元 
有 助 于 解决 该 问题 ,但 是 ，IC 设计 复杂 性 增加 并 且 BIST 复杂 性 也 同时 增加 的 问题 依然 存在 。 

一 个 解决 因 规模 产生 的 问题 的 方法 是 使 用 一 系列 的 “扫描 通路 ”"， 其 中 多 路 选 通融 之 间 的 
We 
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图 7-21 一 个 待 测试 的 扫描 链 ， 利 用 串 - 并 转换 逻辑 隔离 被 测 部 分 
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可 以 看 到 扫描 通路 控制 单元 和 所 有 测试 点 之 间 通 过 一 条 链 互联 ， 称 为 扫描 链 。 其 长 度 取 决 
于 该 链 上 所 有 串 行 /并 行 寄存 器 的 位 数量 。 扫 描 链 本 质 上 是 一 条 高 速 串 行 总 线 ， 包 括 时 钟 、 数 
据 和 控制 线 。 最 重要 的 是 ， 很 容易 环绕 IC 布线 ， 而 BIST 单元 〈 或 扫描 通路 控制 器 ) 可 以 放置 
在 芯片 外 围 而 不 是 中 间 。 


7.9.3 JTAG 


JTAG 是 IEEE 的 一 个 工作 组 ， 目 前 已 经 发 展 为 IEEE 1149 ， 现 已 在 各 种 逻辑 顺 件 中 广泛 用 
于 扫描 链 控制 单元 。IEEE 1149 最 初 是 用 于 边界 扫描 测试 ， 边 界 扫描 测试 是 扫描 路 径 的 一 种 ， 
用 以 链接 器 件 的 外 部 输入 和 输出 ， 而 不 是 用 于 内 部 单元 的 0。 

事实 上 ， 近 些 年 来 遵循 JTAG 的 测试 单元 已 经 集成 了 很 多 实质 性 的 其 他 功能 ， 并 且 目 前 包 
含 了 除 边界 扫描 路 径 之 外 的 各 种 内 部 存 取 功能 。 在 很 多 场合 ，JTAG 是 硬件 调试 器 存 取 目 标 处 
理 器 的 方法 。 一 些 很 先进 的 处 理 器 既 有 测试 用 的 JTAG 单元 ， 又 有 内 置 仿真 器 (in-circuit emu- 
lator，ICE) 用 JTAG 单元 ， 后 者 通常 用 于 调试 。 

JTAG 定义 了 一 个 标准 测试 接口 ， 包 括 以 下 器 件 上 的 外 部 信和 号: 

。 TCK( 测 试 时 钟 ) 

。 TMS( 测试 模式 选择 ) 

。 TDI( 测 试 数据 输入 ) 

。 TDO( 测试 数据 输出 ) 

。 TRST( 可 选 的 测试 复位 ) 

实现 ICE 功能 的 JTAG 单元 ， 通 常会 再 有 4 位 或 者 8 位 的 输入 /输出 信号 来 组 成 一 个 高 速 总 
线 以 快速 传送 测试 数据 。 

我 们 再 来 看 最 原始 的 JTIAG， 图 7-22 给 出 了 JTAG 在 类 ARM 处 理 器 中 的 硬件 实现 。 


乡 





图 7-22 与 JTAG 相关 的 主要 寄存 器 框图 以 及 ARM 处 理 器 中 串 行 数据 寄存 器 互 连 举 例 


JTAG 电路 (并 不 是 完全 按照 图 7-23 的 比例 实现 ) 位 于 图 中 CPU 内 部 逻辑 的 下 面 ， 且 作为 
边界 扫描 与 这 个 模块 的 所 有 输入 /输出 相连 。 使 用 5 个 JTAG 引 脚 ， 所 有 连接 到 CPU 内 部 逻辑 
上 的 输入 、 输 出 和 双向 引 脚 都 可 以 被 查询 和 根据 需要 做 适当 调整 。 

JTAG 在 许多 方面 都 是 很 有 用 的 ， 比 如 跟踪 连接 和 焊接 问题 ( 见 框 7.5) 。 另 外 一 个 常见 应 
用 (这 并 不 是 JTAG 设计 者 的 初始 考虑 ) 就 是 向 和 谍 人 式 系 统 的 闪存 中 下 载 引 导 程 序 ， 见 框 7.6。 
采用 JTAG 寻找 焊接 错误 

想象 一 下 你 拥有 一 块 新 出 厂 的 计算 机 主板 ， 一 切 看 上 去 都 插 好 : 没有 过 电流 错误 ， 复 位 和 时 钟 信号 
良好 ， 但 是 主板 就 是 不 能 工作 。 是 焊接 错误 吗 ? 
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使 用 JTAG 连接 CPU， 测 试 人 员 可 以 对 该 器 件 设 置 给 定数 据 。 然 后 ， 使 用 万 用 表 测 试 PCB 周边 的 信 
号 输出 是 否 正确 。 测 试 人 员 可 能 设置 地 址 总 线 为 0xAAAA( 二进制 为 1010101010101010) ， 这 样 可 以 测试 
这 些 引 脚 有 没有 互相 短路 ， 之 后 设置 为 0x5555( 二 进 制 为 0101010101010101) ， 这 样 每 个 引 脚 上 的 信和 号 都 
翻转 ， 从 而 可 以 发 现 不 能 正常 驱动 高 或 低 电 平 的 引 脚 。 检 查 引 脚 的 这 两 个 状态 是 必要 的 ， 因 为 PCB 上 有 
些 信 号 不 驱动 时 为 高 ， 有 些 则 会 为 低 。 

而 后 ， 测 试 人 员 可 能 在 PCB 中 设置 已 知 值 到 各 测试 点 上 ， 然 后 通过 JTAG 读 回 CPU 上 所 有 输入 引 脚 
的 状态 。 之 后 更 换 为 其 他 值 ， 比 如 这 些 值 的 反 转 ， 并 重复 这 个 步骤 。 

这 样 ，CPU 上 所 有 的 输入 、 输 出 以 及 双向 信号 都 可 以 被 检测 到 。 如 果 CPU 的 某 个 引 脚 或 者 锡 球 没有 
焊接 上 ， 这 样 就 会 看 到 CPU 没有 了 驱动 这 个 信号 ,或 者 CPU 输入 错误 。 

但 这 种 方法 有 它 的 局 限 性 : 首先 ， 测试 只 能 告诉 我 们 焊接 点 是 否 工作 ,但 并 不 能 说 明 它们 的 工作 质 
量 (这 可 以 帮 我 们 预知 未 来 可 能 出 现 的 潜在 错误 ); 其 次 ， 有 些 引 脚 无 法 测试 ， 例 如 电源 引 脚 、 模 拟 电 
路 IO 引 脚 以 及 典型 的 锁 相 环 输入 引 脚 ; 最 后 ， 测 斌 过 程 太 慢 了 ， 因 为 必须 按 顺 序 测试 每 个 引 脚 。 

使 用 JTAG 引导 CPU 

大 多 数 基 于 ARM 体系 结构 的 处 理 器 没有 内 部 闪存 ， 一 般 复 位 后 从 0 号 地 址 开始 执行 。 这 个 地 址 和 与 
外 部 闪存 相连 的 片 选 信号 0 (nCS0 表示 低 电 平 有 效 ) 有 关联 。 

因此 外 部 闪存 包含 一 个 引导 加 载 程序 ， 它 是 CPU 在 复位 或 者 启动 时 首先 执行 的 程序 。 该 程序 会 引导 
到 主 应 用 程序 或 者 操作 系统 ， 比 如 用 于 个 人 数字 助理 的 移动 Linux 或 用 于 指纹 读 取 器 的 SymbianOS 等 。 

在 20 世纪 90 年 代 之 前 ， 引 导 代 码 在 EPROM (可 擦 除 可 编程 只 读 存储 器 ) 中 。 只 需 简单 地 插入 一 个 
可 编程 EPROM 设备 ， 开 启 电源 ， 系 统 就 可 以 工作 。 由 于 ROM 被 认为 太 昂贵 、 尺 寸 较 大 ， 因 此 EPROM 
已 经 逐渐 被 可 重复 编程 的 闪存 所 取代 。 

每 个 新 设备 离开 生产 线 时 闪存 里 面 没有 数据 ， 因 此 需要 将 引导 代码 写 入 闪存 中 。 

这 可 通过 基于 JTAG 的 程序 完成 。 这 需要 一 台 外 部 PC 连接 到 CPU JTAG 控制 器 。PC 机 控制 连接 到 
CPU 引 脚 上 的 闪存 ， 驱 动 闪 存 将 引导 程序 写 入 。 对 于 闪存 来 说 ， 它 不 知道 是 外 部 PC 在 对 其 进行 控制 ， 
而 简单 地 认为 是 CPU 的 一 种 常规 控制 。 

外 部 PC 通过 JTAG 到 CPU 进行 工作 ， 控 制 CPU 端口 ， 使 用 命令 让 外 部 闪存 擦 除 它 本 身 ， 然 后 按 字 
节 将 引导 程序 从 地 址 0 写 入 闪存 。 

JTAG 的 控制 以 简单 状态 机 实现 。 数 据 在 TCK 的 下 降 沿 从 TDI 引 脚 输入 。TMS 引 脚 用 来 选 
择 和 改变 模式 。 有 几 个 模式 可 供 选择 ， 通 常 都 包含 BYPASS 功能 来 跳 过 扫描 链 ， 这 样 可 以 保证 
从 TDI 输 入 的 数据 直接 从 TDO 输出 。IDCODE 输出 ID 寄存 器 的 内 容 来 标识 设备 生产 商 。EX- 
TEST 和 INTEST 通过 扫描 链 输 出 数据 ， 分 别 支持 检测 外 部 和 内 部 的 链接 。 

生产 商 可 以 在 一 个 器 件 内 实现 几 种 扫描 链 。 一 个 典型 例子 就 是 与 CPU 位 于 同一 芯片 中 的 
闪存 有 一 个 单独 的 扫描 链 ， 独 立 于 主 CPU 的 扫描 链 ， 但 它们 共用 同一 个 JTAG 接口 。 

典型 的 扫描 链 有 数 百 位 长 。 例 如 三 星 的 S3C2410 ARM9 处 理 器 是 272 引 脚 的 BGA， 有 扫描 
链 427 位 ， 其 中 每 位 对 应 的 引 脚 为 : 

。 输入 引 脚 
输出 引 脚 
双向 引 脚 
控制 引 脚 

。 保留 或 者 隐藏 引 肢 

通常 ， 输 出 和 双向 引 脚 都 相应 有 一 个 控制 位 ， 以 确定 输出 缓存 是 关闭 还 是 开启 。 这 些 控制 
位 可 以 是 高 电 平 有 效 或 者 低 电 平 有 效 ， 它 们 和 其 他 控制 JTAG 所 需 的 信息 都 存放 在 边界 扫描 数 
据 (BSD 或 BSDL) 文件 中 ,包括 扫描 链 长 度 、 命 令 寄存 器 长 度 、 实 际 命令 字 和 扫描 链 到 引 脚 
或 功能 的 映射 关系 。 

最 后 ， 应 该 注意 的 是 由 于 JTAG 标准 以 串 行 连接 实现 ， 因 此 可 以 使 单个 JTAG 接口 服务 于 
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扫描 链 上 的 不 同 设备 。 一 个 外 部 测试 控制 器 可 以 通过 JTAG 接口 寻 址 并 测试 每 一 个 设备 。 

JTAG 是 一 种 非常 高 效 的 硬件 资源 ， 因 此 在 CPU、FPGA、 显 卡 、 网 络 控制 器 和 配置 器 件 中 
应 用 非常 广泛 。 任 何 还 记得 JTAG 出 现 之 前 调试 数字 硬件 之 困难 的 人 都 会 同意 这 一 观点 ， 即 
JTAG 技术 虽然 简单 ， 但 使 得 计算 机 设计 者 的 原型 设计 能 力 发 生 了 革命 性 的 变化 。 


7. 10 ”错误 检测 和 纠正 


除了 错误 的 编程 以 外 ， 数 字 系 统 中 的 错误 也 可 以 通过 其 他 途径 产生 。 在 糟糕 的 系统 设计 
中 ， 我 们 可 以 看 到 以 下 问题 : 模拟 噪声 干扰 数字 线路 ， 电 源 线 上 产生 电压 急 降 (也 称 为 “ 掉 
电 ”, 在 7.11.1 节 中 将 会 介绍 ) ， 时 钟 抖动 ( 见 7.4 节 ) 会 造成 在 错误 的 时 间 采 样 数字 信号 ， 
来 自 其 他 设备 的 电磁 干扰 也 会 对 信号 造成 影响 。 

一 个 很 少 被 提 及 的 错误 产生 来 源 是 宇宙 辐射 一 一 所 谓 的 SEU (Single Event Upset， 单 粒子 翻 
转 ) 是 指 在 电子 设备 中 由 宇宙 射线 触发 的 随机 位 翻转 。 由 于 地 球 的 大 气 层 会 削弱 宇宙 辐射 和 太阳 
辐射 ， 因 此 SEU 会 随 着 海拔 的 升 高 而 变 得 明显 。 家 用 电子 产品 在 全 球 定位 卫星 所 处 的 高 度 〈 约 
20 000km) 上 将 会 完全 不 可 用 。 然 而 ， 在 一 个 较 低 的 地 球 轨道 高 度 (500km) 它们 可 能 每 天 都 会 
遭受 一 些 SEU。 在 高 山上 ， 这 样 的 事件 每 个 月 会 发 生 一 到 两 次 。 在 地 面 ， 可 能 一 年 才 会 发 生 几 
次 。 这 个 错误 源 在 日 常生 活 中 听 起 来 并 不 值得 我 们 担忧 ， 但 是 还 是 会 有 明显 受 此 因素 影响 的 一 些 
设计 ， 比 如 ， 将 用 在 空中 交通 控制 系统 、 核 反应 堆 控制 室 或 宇航 员 生 命 保 障 系统 中 的 计算 机 。 

幸运 的 是 存在 完善 的 技术 来 解决 以 上 错误 ， 并 且 这 样 的 技术 在 太空 科学 中 是 一 个 活跃 的 研 
究 领 域 。 常 用 的 技术 范围 很 广 ， 从 类 似 的 NASA 决策 到 并 行 运行 5 台 单独 的 计算 机 ， 并 通过 
“多 数 票 决 ” 制 来 决策 ， 更 简单 的 例子 是 存储 总 线 上 的 奇偶 校 验 。 

随 着 时 代 的 进步 ， 像 DEC、IBM 这 样 的 著名 公司 设计 的 UNIX 工作 站 都 能 与 带 奇 偶 校 验 的 
存储 器 互相 传输 信息 。 在 这 样 的 存储 器 中 ， 每 个 字 节 以 9 位 方式 存储 ， 或 者 32 位 数据 以 36 位 
形式 存储 ， 每 个 字 节 中 多 出 来 的 一 位 作为 奇偶 校 验 位 : 


7 6 5 4 3 
一 | @ -3 1 @ | 1 | oo | 1 ,一 

1 0 | 1 二 0 @ | 和 0 

如 果 这 个 字 节 中 “1” 的 个 数 是 奇数 ，P 位 的 值 就 是 1， 否 则 为 0。 如 果 单 个 位 产生 了 错 
误 ,， 与 字 节 内 容 相 比较 奇偶 校 验 位 就 会 是 错误 的 ， 因 此 它 有 可 能 检测 出 是 否 有 单个 位 的 错误 
(比如 由 SEU 引起 的 )。 即 使 奇偶 校 验 位 恰好 就 是 受 SEU 影响 的 那 一 位 ， 这 个 奇偶 校 验 方法 同 
样 可 以 应 用 。 

然而 ， 单 个 位 的 奇偶 校 验 并 不 能 检查 出 字 节 中 的 两 位 错误 。 更 糟糕 的 是 ， 尽 管 我 们 知道 发 
生 了 一 个 错误 ,但 是 我 们 并 不 知道 具体 是 哪个 位 产生 了 错误 ， 所 以 无 法 纠正 这 个 错误 。 

更 多 的 错误 检测 方法 中 用 到 了 汉 明 码 和 Reed-Solomon 编码 方法 。 一 种 近来 非常 流行 并 且 比 
较 先进 的 技术 是 功能 强大 的 Turbo 码 ， 经 常用 在 卫星 通信 中 。 这 些 方法 的 细节 超出 了 本 书 讨论 
范围 ， 在 这 里 ， 我 们 只 需 知 道 所 有 这 些 方法 增加 了 必须 处 理 的 数据 量 ， 但 提高 了 修复 受 损 数据 
的 能 力 。 实 际 上 ， 在 设计 中 需要 以 下 多 方面 的 权衡 :: 

。 编码 的 复杂 度 一 一 需要 多 少 MIPS 编码 一 个 数据 流 。 
解码 的 复杂 度 一 一 需要 多 少 MIPS 解码 一 个 数据 流 。 
编码 开销 需要 多 少 额外 的 数据 位 加 到 数据 之 中 。 
纠 错 能 力 一 一 能 纠正 多 少 位 错误 数据 。 
检 错 能 力 一 一 能 检测 出 多 少 位 错误 数据 。 
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我 们 可 以 考虑 每 一 种 设计 要 素 ， 每 个 设计 都 有 它 独 有 的 特点 。 而 且 ， 要 考虑 设计 所 基于 的 


数据 单元 





可 能 是 单个 字 节 (有 重复 的 编码 )， 也 可 能 是 几 个 KB， 甚 至 更 大 (Turbo 码 )。 


我 们 必须 就 不 同情 况 做 实际 考虑 : 一 些 设计 会 在 处 理 几 个 数据 位 之 后 就 输出 经 过 纠正 的 数据 ， 
而 一 些 设计 会 在 处 理 完 一 个 庞大 的 数据 块 后 再 进行 解码 。 
一 些 例子 如 下 : 


三 重 元 余 一 一 有 时 称 为 重复 编码 。 在 这 种 编码 设计 中 ， 数 据 的 每 一 位 重复 了 三 次 ， 所 
以 编码 开销 是 300% ， 因 此 一 个 错误 可 以 在 每 3 位 中 被 纠正 。 编 码 和 解码 极其 容易 。 
重 模块 元 余 (TMR) 是 其 中 一 个 例子 ， 将 3 个 或 更 多 个 模块 的 输出 由 “多 数 票 决 ” 制 
决定 输出 ， 如 图 7-23 所 示 。 被 决策 的 信号 不 是 必须 为 数据 位 ， 有 可 能 是 字 节 、 字 或 者 
更 大 的 数据 块 。 我 们 可 以 对 单独 的 每 个 位 或 者 整个 项 目的 输出 数据 进行 “投票 ”"。 其 
中 一 个 例子 是 这 样 的 : NASA 的 航天 飞机 上 拥有 5 台 IBM 用 于 航天 的 计算 机 ， 其 中 4 台 
运行 相同 的 代码 并 且 支 持 多 数 票 决 。 第 5 台 运行 和 其 他 机 器 相同 任务 的 软件 ， 但 是 被 
单独 开发 和 编写 (这 样 就 不 会 受 和 其 他 计算 机 相同 的 软件 错误 的 影响 ) 。 

汉 明 码 一 一 一 个 非常 流行 的 代码 形式 ,通常 形式 为 7,4) 编码 ， 即 为 每 4 位 的 数据 
添加 3 位 的 校 验 位 数据 。 它 可 以 纠正 每 个 数据 块 里 的 单位 错误 ， 并且 还 可 以 检测 出 每 
个 数据 块 中 2 位 的 数据 错误 。 编 码 和 解码 都 是 相对 比较 简单 的 一 一 要 求 对 1、0 组 成 的 
矩阵 所 代表 的 数字 进行 简单 的 模 2 算术 。 从 框 7.7 和 框 7. 8 中 可 知 (7, 4) 代码 的 编 
码 开销 是 75% 。 注 意 : 汉 明 码 存在 许多 不 同 的 形式 ， 从 而 有 不 同 的 代码 开销 以 及 检 错 
和 纠 错 特点 。 


lll 








6 2 
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图 7-23 一 个 TMR 例子 一 一 一 个 处 理 模块 被 重复 了 3 次 。 一 个 简单 的 输出 电路 演示 了 “多 数 票 决 ” 制 。 


例如 ， 如 果 三 个 模块 的 输出 分 别 是 位 级 别 的 0, 0，1， 那 么 最 后 的 输出 就 是 0， 我 们 会 认为 输出 
为 1 的 模块 是 错误 的 。 以 此 类 推 ， 如 果 3 个 模块 的 输出 分 别 是 1，0，1， 那 么 最 后 的 输出 是 1， 
我 们 会 认为 中 间 输 出 0 的 模块 是 错误 的 。 注 意 : 信号 不 一 定 必须 是 位 ， 有 可 能 是 更 大 的 数据 块 


汉 明 (7，4) 编码 举例 
对 于 一 个 将 要 传输 的 4 位 数据 字 ， 它 的 各 个 数据 位 分 别 是 b,。、b1 、b,、b3。 我 们 利用 模 2 算术 来 定义 
从 po 到 ps 的 4 个 奇偶 校 验 位 : 


po = b, +b, +b; 
Pp = bo +b, +b; 
Pp» = bo +b, +bs 
ps = bo +b,+b, 


实际 上 我 们 要 传输 的 7 位 的 数据 字 是 由 4 位 的 初始 数据 和 3 个 奇偶 校 验 位 组 成 的 ， 如 下 所 示 : 


bm WR i EE kd 











日 模 2 算术 用 0 和 1 来 标记 数值 。 它 表示 任何 大 于 1 的 数 除 以 2 的 余数 。 这 样 ， 偶 数 模 2 后 用 0 来 表示 ， 奇 数 


模 2 后 用 1 来 表示 。 例 如 ，3 =1(mod 2) ，26 =0( mod 2) 。 以 此 类 推 ， 任 何 数 的 模 算法 就 是 它们 除 以 后 
所 得 的 余数 。 


[337] 
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当 接 收 到 这 个 7 位 的 数据 字 时 ， 我 们 很 容易 重新 计算 3 个 奇偶 校 验 位 并 且 检 测 它 们 是 否 正确 。 它 意 
味 着 数据 或 者 被 正确 地 接收 ， 或 者 存在 着 大 于 1 位 的 数据 错误 。 如 果 检 测 到 一 个 错误 ， 我们 可 以 确切 地 
知道 (假设 只 是 单位 的 数据 错误 ) 哪个 数据 位 是 错误 的 。 例如， 如 果 检 测 到 p! 和 p, 是 错误 的 ， 但 是 Po 
是 正确 的 ， 那么 数据 位 b 或 如 有 可 能 产生 了 错误 。 然 而 ,，b, 是 用 来 计算 po 的 ,而 po 又 是 正确 的 ， 因 而 
我 们 可 以 确定 只 有 bo 位 发 生 了 错误 。 

汉 明码 (或 者 其 他 编码 形式 ) 更 常用 矩阵 举例 见 框 7.8。 
FE 利用 和 矩阵 的 汉 明 (7，4) 编码 实例 

实际 上 ， 汉 明 编 码 、 验 认 和 纠 错 是 利用 线性 代数 (矩阵 ) 来 实现 的 。 汉 明 将 G 定义 为 生成 矩阵 ,及 
定义 为 奇偶 校 验 伟 阵 : 


到 
和 
1000 I 
G=|0o0 11 1 2 i | 
QO 1 冶 必 | 
0 10 
0 0 0 1 
我 们 用 一 个 4 位 的 数据 向 量 来 证 明 。 首 先 ， 向 量 d (1101) 与 生成 矩阵 G 做 乘法 ， 从 而 生成 7 位 要 
传输 的 数据 字 : 
二 本 | 3 1 
和 玉生 | 0 
1 0 0 0 1 1 
=Odss|G 1 1 1 =|12| modulo2 =5 |0 
1 00 1 1 
gH 1 0 , 0 0 
G00 1 1 1 


从 而 用 欲 传输 的 数据 1010101 代表 原始 的 数据 1101。 假 设 存在 一 个 单位 数据 错误 ， 我 们 接收 到 一 个 不 同 
的 数据 : y=1000101。 下 面 来 看 一 看 我 们 如 何 用 盾 阵 及 来 检查 接收 到 的 数据 : 


1 
0 
| | 0 3 1 
m=|o11oo -| oo2 => | | 
001T1iL1 1 公 0 
0 


1 
通过 查看 奇偶 校 验 和 矩阵 吾 ， 我 们 看 到 [110] 位 于 第 3 列 ， 那 么 ， 我 们 接收 到 的 了 的 第 三 个 数据 位 就 
是 错误 的 。 通 过 比较 x 和 y， 我们 发 现 确实 如 此 。 将 第 三 个 数据 位 翻转 过 来 ， 由 0 变 为 1 就 纠正 了 y 并且 
重新 构造 了 原始 的 数据 信息 。 
。 Reed-Solomon( RS) 一 一 一 种 基于 数据 块 的 代码 形式 ， 具 有 相对 较 低 的 编码 复杂 度 和 
较 高 的 解码 复杂 度 。RS 实际 上 是 一 种 基于 数据 块 大 小 的 代码 形式 一 一 它 的 检 错 和 纠 错 
能 力 是 由 所 处 理 的 数据 块 的 大 小 设 定 的 。 一 种 常用 的 代码 形式 是 RS(255，223) ， 用 于 
处 理 具有 255 字 节 的 数据 块 。 经 过 编码 后 的 数据 块 包含 223 字 节 的 数据 和 32 字 节 校 验 
码 数据 ， 并 且 在 每 个 223 字 节 的 数据 块 中 ， 可 以 纠正 16 字 节 的 错误 数据 。 注 意 ， 这 些 
字 节 可 能 有 多 种 多 样 的 错误 ， 所 以 有 时 可 能 会 纠正 多 于 16 个 的 单位 错误 。 对 于 RS 
(255 ，223 ) ， 编 码 长 度 的 开销 是 223 个 字 节 ， 需 要 增加 32 个 字 节 ， 即 14% 。 
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一 些 CPU (例如 欧洲 太空 总 署 所 用 的 SPARC 处 理 器 ， 被 称 为 ERC32， 也 可 以 叫 作 Leon 软 
核 ) 自身 就 代 入 了 EDAC (错误 检测 和 纠正 ) ， 其 他 的 一 些 CPU 则 依赖 于 外 部 的 EDAC 单元 ， 
如 图 7-24 所 示 。 

在 图 7-24 中 ,数据 总 线 上 的 数据 和 连接 到 
CPU 的 数据 并 不 受 EDAC 保护 ， 我 们 需要 一 个 外 
部 EDAC 设备 给 每 个 从 CPU 写 出 到 存储 器 的 数据 SS 


PIH, VII WY 
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字 添 加 纠 错 代 码 ， 并 且 检 测 每 个 从 存储 器 读 入 
CPU 的 数据 字 。 一 旦 检测 到 一 个 不 可 修复 的 错误 ， 
则 启动 一 个 中 断 来 通知 CPU。 而 那些 可 修复 的 错 
误 无 须 CPU 干预 便 可 自动 修复 。 

注意 ， 并 不 是 所 有 纠 错 代码 都 可 以 迅速 地 在 
CPU 和 存储 器 之 间 进行 操作 。 例 如 ，Reed- Solo- 
mon 编码 的 数据 字 需 要 相对 比较 长 的 一 段 时 间 来 ji 
解码 ， 每 次 检测 到 错误 并 且 纠 正 的 过 程 很 可 能 导 图 7-24 EDAC 单元 位 于 CPU 存储 器 
致 CPU 的 暂时 停顿 。 相 比 之 下 ， 汉 明码 是 比较 快 接口 和 外 部 存储 器 之 间 
捷 的 ， 经常 在 系统 中 被 用 作 错 误 检 测 和 纠正 〈 见 
框 7.7 和 框 7.8 中 汉 明 编码 的 例子 ) 。 

总 之 ， 要 求 一 些 计算 机 系统 高 度 可 靠 ， 因 而 错误 检测 和 纠正 单元 就 是 必须 具备 的 ， 或 者 是 
内 部 租 入 的 单元 ,或 者 是 在 容易 受 品 声 影响 的 外 部 数据 线 上 。 类 似 地 ， 那 些 更 容易 受 SEU 错 
误 影 响 的 高 密度 存储 也 需要 在 EDAC 单元 的 保护 下 才能 正常 工作 。 


7. 11 看 门 狗 定 时 器 和 复位 监测 

除了 直接 的 奇偶 校 验 ，EDAC 在 实际 的 计算 机 中 很 少 使 用 , 但 看 门 狗 定时 融和 掉 电 检测 器 
( 见 7.11.1 节 ) 却 极 其 常见 ， 它 们 通常 在 专用 CPU 集成 电路 中 实现 。 

一 个 看 门 狗 定时 器 对 于 处 理 咒 来 说 就 像 是 起 搏 器 对 于 人 的 心脏 一 样 : 它 需 要 不 断 地 重新 确 
定 处 理 器 在 正确 地 执行 程序 。 如 果 一 段 时 间 没 有 进行 重新 确定 ， 看 门 狗 定时 器 就 可 以 确定 这 个 
处 理 器 已 经 “ 挂 ” 了 ， 并且 会 触发 复位 键 一 一 就 像 是 起 搏 器 给 已 经 停止 跳动 的 心脏 传输 一 次 
小 小 的 电击 一 样 。 

从 编程 者 的 角度 来 看 ， 处 理 器 必须 反复 在 超时 时 间 段 内 写 人 或 读 出 看 门 狗 定时 器 
(WDT) 。 它 会 不 断 地 写 入 或 读 出 ,但 在 一 段 特定 的 时 间 内 如 果 读 写 失 败 ， 就 会 引起 复位 。 

内 置 的 WDT 会 允许 编程 人 员 通 过 写 和 人 内 部 的 配置 寄存 器 来 设 定 超时 时 间 ， 这 个 配置 寄存 
器 通常 有 存储 映射 。 看 门 狗 的 构造 是 一 个 倒数 计时 器 ， 通 过 输入 分 频 系统 时 钟 具体 实现 ， 分 频 
比率 在 很 多 情况 下 也 是 可 以 设置 的 。 系 统 复位 时 ， 看 门 狗 计 时 器 的 配置 寄存 器 中 的 值 会 被 载 人 
一 个 硬件 计数 器 中 。 系 统 没 有 复位 的 时 候 ， 这 个 计数 器 会 随时 钟 递减 。 比 较 器 会 监督 它 何 时 减 
为 零 ， 此 时 将 触发 复位 信号 。 一 旦 CPU 读 出 或 写 人 数据 到 WDT 寄存 器 中 ， 硬 件 计数 器 会 将 看 
门 狗 计 时 器 的 配置 寄存 器 的 数值 重新 载 人 。 

一 个 外 部 的 看 门 狗 定 时 器 可 以 由 一 个 电容 、 电 阻 和 一 个 比较 器 组 成 。 这 样 的 看 门 狗 定 时 器 
和 外 部 复位 电路 〈 见 7.11.1 节 ) 的 工作 方式 类 似 ， 只 是 CPU 要 定期 地 向 电容 “ 写 人 ”一 个 逮 
辑 “ 高 ”以 保持 它 的 充电 状态 ， 从 而 呈现 复位 状态 。 

典型 的 看 门 狗 计时 时 间 是 几 百 毫秒 或 可 能 是 几 秒 一 一 如 果 时 间 太 短 将 会 意味 着 过 多 的 CPU 
周期 浪费 在 周期 性 存 取 WDT 的 代码 上 。 人 解决 这 个 问题 的 最 好 方法 就 是 周期 性 地 执行 一 些 底层 
代码 ， 比 如 每 100ms 执行 一 次 的 05 定时 器 程序 。 如 果 定 时 器 停止 ,我们 就 可 以 断定 系统 已 经 
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崩溃 了 ， 结 果 看 门 狗 会 重启 处 理 器 。 看 门 狗 定 时 器 因此 要 确保 系统 时 刻 处 在 运行 之 中 ， 否 则 ， 
它 会 重启 CPU 并 且 重 新 执行 0S 程序 。 


复位 监测 器 和 掉 电 检测 器 


计算 机 行业 的 许多 资深 人 士 也 许 还 记得 早期 IBM PC 上 的 “大 红色 开关 ” 和 机 器 上 很 显眼 
的 复位 按钮 。 这 些 明显 的 按钮 可 能 是 一 种 运行 在 机 器 上 的 操作 系统 ( 即 MS- DOS 和 Microsoft 
Windows) 的 可 靠 性 的 体现 。 幸 运 的 是 我 们 不 再 用 MS-DOS 了 , 但 是 仍然 在 用 Windows 一 一 尽 
管 它 一 般 不 会 被 用 于 那些 可 靠 性 要 求 很 高 的 “任务 至 关 重 要 ”的 应 用 中 。 

相 比 之 下 ， 肉 人 式 系统 就 不 会 有 大 的 复位 按钮 ， 它 经 常用 “ 软 ” 开 关 而 不 是 “ 硬 ” 开 关 
( 即 那些 处 于 软件 控制 之 下 的 “开关 ”， 而 不 是 在 硬件 上 直接 控制 电源 系统 的 开关 ) 。 典 入 式 系 
统 经 常 被 认为 是 更 加 可 靠 的 ， 尤 其 在 远程 操作 方面 。 例 如 ， 在 火星 探测 器 上 的 “大 红色 开关 ” 
是 不 现实 的 。 

在 提高 系统 可 靠 性 的 要 求 方面 ， 典 人 式 系统 趋向 于 广泛 地 利用 看 门 狗 定时 器 (参见 7. 11 
节 )。 它 还 有 电源 和 复位 监测 电路 。 

复位 电路 ， 经 常 由 一 个 外 部 的 复位 输入 驱动 ， 对 于 确保 一 个 设备 在 已 知 状态 下 开始 操作 是 
非常 重要 的 。 不 管 是 在 CPU、SoC、FPGA 中 ， 还 是 在 分 立 的 硬件 系统 中 ， 缺 少 复位 清 零 信 号 是 
许多 系统 错误 的 起 因 。 

一 个 外 部 的 复位 控制 设备 ,或 者 监测 IC 如 图 7-25 所 示 ， 一 旦 系统 上 电 就 会 “启动 ”复位 
信和 号。 一 段 时 间 后 ， 复 位 信号 撤销 ， 就 会 允许 设备 从 一 个 已 知 的 位 置 开始 运行 。 一 些 SoC 处 理 
器 在 内 部 会 包括 所 有 的 复位 逻辑 和 时 序 电路 。 其 他 设备 可 能 会 允许 设计 者 简单 地 将 复位 引 脚 接 
到 和 CND 相连 的 电容 上 ， 和 一 个 与 V 相 连 的 电阻 上 ， 但 是 在 许多 情况 下 这 样 做 是 非常 危险 
的 ， 所 以 一 定 要 非常 注意 。” 








图 7-25 位 于 V 和 地 (GND) 之 间 的 复位 监测 IC 一 一 用 于 为 CPU 和 任何 需要 它 的 外 部 设备 产生 低 电 平 
有 效 的 nRESET 信和 号。 按照 约定 ， 复 位 信号 是 低 电 平 有 效 的 ， 以 确保 第 一 次 上 电 时 设备 处 于 复 
位 状态 。 如 果 设 计 中 要 求 有 复位 按钮 ， 那 么 这 也 可 以 作为 复位 监测 器 的 一 个 输入 


日 ”这 种 做 法 危险 的 原因 在 于 复位 信号 被 触发 的 方式 。 系 统一 上 电 ， 通 过 电容 的 电压 初始 为 0， 意 味 着 复位 引 肢 
为 低 电 平 。 由 于 电容 通过 与 Ve 相 连 的 电阻 慢 慢 充电 ， 电 压 会 一 直上 升 并 达到 复位 输入 引 脚 的 冰 值 ， 这 时 ， 
它 会 作为 逻辑 “高 ”驱动 复位 输入 信号 ， 从 而 使 设备 从 复位 中 退出 。 然 而 ， 不 幸 的 是 ， 在 任何 系统 中 总 会 
存在 电 噪声 ， 引 起 电压 小 范围 波动 ， 使 电容 电压 超过 复位 引 脚 阔 值 ， 导 致 设备 快速 地 进入 和 退出 复位 ， 扰 
乱 复 位 动作 。 这 促使 大 多 数 制 造 商 不 得 不 规定 一 个 他 们 的 设备 保持 在 复位 状态 的 最 小 时 间 。 
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掉 电 是 指 在 电压 线 “ 上 的 一 次 电压 下 降 。 由 于 规定 CPU 只 可 以 在 很 小 的 电压 变动 范围 内 运 
行 ， 因 此 当 掉 电 发 生 时 会 引起 故障 。 如 果 完 全 掉 电 ， 外 部 复位 芯片 会 启动 复位 状态 〈 即 一 旦 电 
源 恢复 ， 它 们 会 在 制造 商 规定 的 时 间 内 将 CPU 保持 在 复位 状态 ) 。 然 而 ， 当 供电 电压 不 在 规定 
的 电压 范围 内 时 ， 只 有 拥有 掉 电 检 测 器 的 复位 芯片 才 会 做 同样 的 事情 。 

另外 ,一些 带 掉 电 检测 的 复位 芯片 可 以 给 处 理 器 提供 即时 的 掉 电 中 断 ， 使 处 理 器 在 完全 掉 
电 的 几 毫 秒 之 前 及 时 处 理 好 该 做 的 事情 ， 然 后 “干净 ”地 断 电 。 复 位 监测 〈reset supervision ) 
和 掉 电 检测 的 处 理 如 图 7-26 所 示 ， 提 供给 处 理 器 的 V.. 电 压 值 随时 间 的 变化 在 图 中 绘 出 。 设 备 
的 工作 电压 是 3.3V +5% ， 因 而 复位 监测 系统 被 设置 为 检测 任何 超出 这 个 范围 的 V.. 电 压 偏 移 。 
当 检 测 到 电压 偏 移 时 ， 系 统 会 触发 复位 状态 。 复 位 状态 会 在 每 次 发 生 时 保持 10ms (实际 上 ， 
它 经 常 被 设 定 为 超出 处 理 器 制造 商 所 规定 的 时 间 ， 规 定时 间 一 般 远 小 于 10ms) 。 这 时 会 像 如 图 
7-25 所 示 的 标准 复位 监测 IC 一 样 连接 和 使 用 掉 电 检 测 设备 。 




















图 7-26 一 个 复位 监测 芯片 的 例子 。 当 提供 的 电源 〈 上 面 的 轴线 ) 上 升 到 额定 的 3.3V 时 会 引起 复位 
(如 处 于 下 面 轴线 的 nRESET 信号 所 示 ) 经 过 一 段 时 间 的 正常 操作 ， 当 电压 值 下 降 时 掉 电 发 生 
了 。 监测 芯片 必然 会 将 处 理 器 干净 地 复位 直到 电压 又 上 升 到 额定 电压 。 稍 后 ， 电 压 值 超过 峰值 
的 情况 开始 出 现 ， 在 这 种 情况 下 也 会 做 类 似 的 处 理 


7. 12 逆向 工程 

随 着 藤 入 式 技 术 的 发 展 ， 消 费 者 看 到 了 令 人 满意 和 惊叹 的 新 产品 ， 但 对 开发 人 员 来 说 ， 这 
是 一 个 长 期 、 艰 巨 而 昂贵 的 设计 过 程 。 当 然 ， 任 何 新 的 艇 人 式 系 统 的 先锋 发 明 者 可 以 期 望 有 时 
间 上 的 竞争 优势 ， 这 个 时 间 让 他 们 能 够 改善 其 原始 设计 ， 企 业 往 往 依赖 这 头 几 个 月 在 不 拥挤 的 
市 场 上 的 销售 额 来 收回 大 量 前 期 设计 和 制造 成 本 。 通 常情 况 下 ， 竞 争 对 手 的 产品 也 包含 类 似 的 
先驱 产品 投入 ， 因 为 同样 需要 类 似 的 开发 代价 。 





加 “ 掉 电 ” (brownout) 就 像 是 “ 断 电 ”(blackout) ， 但 不 如 断 电 严重 。 也 许 我 们 可 以 依据 这 种 颜色 比喻 将 电源 
的 峰值 比 作 “whiteout”。 
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然而 ， 当 竞争 对 手 对 先驱 设计 进行 廉价 而 快速 的 逆向 工程 -设计 时 ， 经 济 情况 将 会 发 生 大 幅 
度 变化 。 他 们 的 开发 成 本 在 很 大 程度 上 被 逆向 工程 成 本 取代 ， 如 果 我 们 假设 这 些 都 大 大 减少 ， 那 
么 竞争 者 将 很 容易 削减 先驱 设备 的 价格 。 影 响 是 双重 的 : 首先 ， 先 锋 公司 的 市 场 领先 地 位 被 前 
弱 ; 其 次 ， 其 市 场 份额 由 于 竞争 对 手 产 品 定价 较 低 而 减少 。 道 向 工程 《Reverse Engineering，RE ) 
过 程 比 完整 的 原型 开发 项 目 更 短 、 更 便宜 的 假设 在 仿冒 产品 的 商业 例子 上 得 到 证 明 。 前 期 开发 成 
本 和 RE 成 本 的 差别 越 大 ， 先 锋 公 司 的 风险 就 越 大 ， 而 有 意 仿冒 其 产品 的 恶意 竞争 对 手 的 收益 也 
越 大 。 而 在 一 个 真正 具有 革命 性 的 产品 很 容易 对 其 实施 逆向 工程 的 情况 下 ， 这 种 差别 最 大 。 

当然 ， 应 该 指出 的 是 ， 了 解 事物 如 何 工 作 的 逆向 工程 是 一 个 历史 悠久 的 工程 方法 。 它 更 是 
一 个 有 效 的 研究 领域 ， 是 许多 工程 师 喜 欢 从 事 的 工作 。 然 而 ， 通 过 逆向 工程 设计 仿冒 品 在 嵌入 
式 行业 很 受 关注 ， 从 而 导致 了 一 些 与 计算 机 体系 结构 相关 的 挑战 和 对 策 ， 我 们 将 在 后 面 讨 论 。 

但 是 首先 简要 观察 RE 过 程 本 身 是 有 用 的 ， 因 为 这 能 够 抛砖引玉 。 


7. 12. 1 逆向 工程 过 程 


在 本 节 中 ， 我 们 将 从 对 未 受 保护 的 嵌入 式 系统 进行 闭 向 工程 的 违规 公司 的 角度 来 讨论 。 其 
目的 是 研究 每 一 步 的 困难 、 专 用 设备 和 工作 ， 以 测定 此 过 程 中 的 成 本 结构 以 及 它 如 何 与 处 于 
“攻击 ”之 下 的 体系 结构 相关 联 。 

RE 过 程 涉 及 系统 的 自 上 而 下 和 自 下 而 上 两 种 分 析 。 图 7-27 描述 了 藤 人 式 系统 的 层次 结 
构 ， 可 以 看 到 系统 本 身 潜在 地 包含 不 同 的 子 系统 (sub-assembly) ， 每 个 子 配 件 包含 一 个 或 更 多 
印 制 电路 板 (PCB) 的 单个 模块 或 模块 组 。 自 上 而 下 意味 着 从 整体 系统 功能 开始 ， 一 直 向 下 ， 
把 设计 划分 成 过 程 块 ， 逐 步 说 明 设 计 功 能 ， 直 至 底层 。 自 下 而 上 通常 包括 先 确定 关键 设备 ， 然 
后 从 它们 推断 进一步 的 信息 。 一 个 例子 就 是 在 一 块 PCB 上 找到 一 个 已 知 的 CPU， 从 而 推断 出 
系统 内 的 许多 “情报 ”集中 在 该 模块 内 。 





图 7-27 对 艇 入 式 系统 进行 逆向 工程 时 的 信息 层次 示意 图 。 从 外 向 内 ， 把 系统 作为 一 个 整体 分 析 ， 包 括 
一 个 或 多 个 子 系统 (包括 布线 ) 、 模 块 (和 它们 的 固定 装置 )， 模 块 包括 一 个 或 多 个 PCB (包括 
子 板 、 插 卡 等 )， 直 至 安装 在 PCB 上 或 位 于 系统 内 其 他 地 方 的 单个 元 件 


能 入 式 系统 的 自 上 而 下 RE 通常 包括 几 个 分 析 步 又 。 尽 管 在 实践 中 个 别 的 RE 攻击 可 能 不 
一 定 涉及 每 一 步 ， 或 者 按照 一 个 特定 的 顺序 ,但 RE 各 阶段 的 逻辑 列表 一 般 如 下 : 
: 系统 功能 分 析 一 一 理解 系统 的 功能 
: 物理 结构 分 析 
B. 1: 机 电 布 局 
B.2: 外 壳 设 计 


@ @ 中 





加 “ 道 向 工程 ”通常 被 定义 为 一 个 过 程 ， 涉 及 对 设备 功能 、 结 构 和 技术 的 分 析 和 理解 ， 并 用 一 种 使 其 结构 和 技术 
可 重用 的 方式 来 表现 出 来 。 
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B.3: 印 制 电路 板 布局 
B. 4: 布线 和 连接 器 
B.5: 汇编 指令 
: 材料 清单 
C. 1: 有 源 电子 元 件 
C.2: 无 源 电子 元 件 
C.3: 互 连 线 和 连接 器 
C.4: 机 械 项 目 
: 系统 架构 
D.1: 功能 块 和 它们 的 接口 
D.2: 连通 性 
: 详细 的 物理 布局 
E. 1: 单个 元 件 的 位 置 
E.2: 元 件 之 间 的 电气 连接 
E.3: 阻抗 约束 和 位 置 敏感 定位 
: 电气 连接 原理 图 一 一 系统 电路 图 
: 对 象 /可 执行 代码 
G. 1: 代码 处 理 器 剥离 
G.2: 可 重 构 逻 辑 固件 代码 剥离 
: 软件 分 析 一 一 目标 文件 中 的 软件 分 析 ， 包括 嵌入 式 代 码 、 引 导 加 载 程序 、 固 件 及 
ASIC 逆向 工程 

为 了 突出 这 个 过 程 ， 关 于 未 受 保护 /未 硬化 的 伐 和 人 式 系统 ， 我 们 将 用 如 图 7-28 所 示 的 非常 
通用 的 系统 级 框图 来 讨论 每 个 RE 阶段 。 它 包含 一 个 大 规模 集成 电路 (IC) ， 连 接 了 易 失 性 存 
储 器 〈 在 这 种 情况 下 是 SRAM) 、 非 易 失 性 存储 器 (闪存)、 现 场 可 编程 门 阵列 (FPGA)、 某 
种 形式 的 用 户 接口 、 连 接 器 以 及 一 些 与 外 界 接口 的 设备 ， 一 般 为 模 数 转换 器 (ADC) 和 数 模 转 
换 器 (DAC) 。 特 定 的 系统 可 能 会 有 所 不 同 ， 但 作为 普遍 的 一 类 ， 舱 入 式 系统 通常 包括 一 个 从 
闪存 启动 的 CPU， 在 SRAM 外 执行 (这 两 者 越 来 越 倾 向 于 要 和 集成 到 IC 内 部 ) ， 连 接 到 离散 部 
件 、 可 编程 逻辑 (FPGA、 可 编程 逻辑 器 件 等 )、 专 用 集成 电路 (ASIC) 、 某 种 形式 的 用 户 界面 
以 及 与 外 部 模拟 世界 的 接口 。 更 大 型 的 系统 往往 会 使 用 DRAM、SDRAM 甚至 硬盘 存储 。 还 有 
一 些 集成 系统 倾向 于 在 FPCA 或 ASIC 中 集成 CPU 软 核 。 

现在 我 们 以 图 7-28 中 的 系统 为 例 讨 论 RE 过 程 的 每 个 阶段 。 我 们 假定 系统 没有 被 保护 或 以 
任何 方式 故意 硬化 。 
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图 7-28 待 分 析 的 嵌入 式 系统 示例 框图 。 包 含 两 个 有 源 IC (松散 定义 为 CPU 和 FPGA/ASIC)、 两 个 存储 
元 件 〈 易 失 性 SRAM 和 非 易 失 性 闪存 ) ， 加 上 几 个 连接 器 、 电 源 电路 、 晶 振 和 接口 设备 
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7. 12.1.1 功能 分 析 

一 个 RE 团队 通常 会 收 到 一 些 单元 进行 逆向 工程 。 这 一 过 程 开 始 于 咨询 用 户 文档 、 维 修 手 
册 、 产 品 简介 等 。 最 低 限 度 ， 要 给 出 经 过 仔细 检查 的 功能 列表 ， 随 后 的 分 析 将 会 显示 有 足够 的 
硬件 和 软件 来 支持 每 个 所 确定 的 功能 。 

这 是 相对 简单 的 工作 ， 并 可 以 通过 搜索 因特网 上 的 新 闻 组 、 博 客 、 相 关 网 站 等 中 的 信息 来 
增强 。 了 解 制造 商 和 任何 原始 设备 制造 商 (OEM)， 其 电子 邮件 域 的 个 人 记录 可 以 被 跟踪 和 相 
关联 。 

7. 12. 1.2 物理 结构 分 析 

拆 分 可 能 像 卸 下 几 个 螺丝 来 打开 一 个 盒子 一 样 简单 ， 或 像 进行 层 层 微机 械 工作 一 样 难 。 在 
许多 情况 下 ， 一 个 复杂 的 拆 分 过 程 文档 是 决定 相应 的 制造 装配 过 程 的 关键 。 可 能 设计 者 已 经 投 
入 了 大 量 的 时 间 和 精力 在 可 制造 性 问题 上 了 ， 因 此 有 可 能 要 了 解 这 些 问 题 的 隐 含 价值 。 这 些 信 
息 在 服务 手册 中 可 能 有 记载 。 

拆 分 部 件 的 顺序 和 位 置 应 该 记录 下 来 ， 借 助 照 片 或 录像 记录 会 很 容易 。 理 想 情 况 下 ， 团 队 
中 的 一 名 成 员 应 专门 负责 过 程 的 记录 工作 。 执 行 拆 分 的 任何 观察 和 见解 也 需要 在 这 个 阶段 加 以 
注意 。 虽 然 复 制 外 壳 、 内 部 结构 、 布 线 图 等 的 详细 机 械 图 纸 可 从 对 零件 的 静态 分 析 中 获得 ,但 
装备 图 仍 需要 通过 拆卸 和 重组 得 到 。 物 理 结构 分 析 不 太 可 能 是 RE 的 昂贵 部 分 。 然 而 ， 不 寻常 
的 机 械 安排 和 结构 背后 的 原因 起 初 可 能 不 是 显而易见 的 ， 需 要 集思广益 。 

7. 12. 1.3 材料 清单 

材料 清单 (BOM) 列 出 了 设计 中 使 用 的 所 有 元 件 ， 可 以 简单 到 计算 螺丝 、 电 阻 等 的 数目 。 
但 是 ， 可 能 会 发 生 某 些 元 件 难 以 识别 的 情况 ， 特 别 是 半 定 制 IC 和 高 度 微型 化 封装 的 设备 ( 没 
有 为 识别 标志 留 出 足够 的 表面 积 ) 。 如 果 用 简化 代码 显示 ， 它 们 可 能 会 遵循 正 DEC、JIS 或 Pro- 
Electron 的 标准 化 格式 。 可 能 需要 对 分 立 部 件 进行 隔离 测试 ， 它 们 的 特性 可 能 与 已 知 设 备 精 确 
匹配 。 然 而 ，5% 或 以 上 的 公差 很 常见 ， 在 进行 精确 测定 前 ， 对 许多 系统 的 部 件 进行 隔离 和 测 
试 是 有 必要 的 。 

在 真正 的 学 术 研究 领域 ， 尤 其 是 在 过 时 的 部 件 需要 重新 创建 的 情况 下 ， 某 些 部 件 可 以 被 原 
样 复制 。 一 般 情况 下 ， 物 理 测量 中 的 实体 模型 可 以 与 材料 分 析 结 合 起 来 以 完整 地 描述 许多 部 
件 ， 包括 结构 项 目 、 附 件 和 无 源 元 件 。 

PCB 丝印 标记 对 于 识别 微小 的 无 标记 部 件 常 常 能 提供 有 用 的 线索 (如 Z12 可 能 是 一 个 齐 纳 
二 极 管 ， 而 L101 可 能 是 一 个 电感 ) 。 标 记 不 寻常 或 缺失 的 IC 是 比较 麻烦 的 ， 尤 其 是 制造 商 并 
不 确定 的 时 候 。 有 时 ， 片 上 系统 的 处 理 核 厂家 相 比 其 他 更 容易 被 确定 。 如 果 可 以 识别 制造 过 
程 ， 就 可 以 将 其 与 该 过 程 其 他 已 知 产品 的 发 布 者 关联 起 来 。 

和 否则， 后续 的 系统 分 析 〈 如 数据 总 线 、 地 址 总 线 的 位 置 和 大 小 ， 控 制 信号 和 电源 连接 ) 
可 以 帮助 确定 那些 不 能 立即 识别 的 部 件 。 

大 多 数 舱 入 式 系 统 会 纳入 现成 的 部 件 ， 甚 至 提供 有 用 的 丝印 注释 ， 有 助 于 使 RE 过 程 变 得 
廉价 。 最 常见 的 困难 似乎 与 定制 的 硅 器 件 相 关 ， 无 论 它 来 源 于 OEM 或 大 规模 集成 (LSI) 器 件 
的 内 部 开发 。 然 而 ， 虽然 OEM 硅 器 件 常常 无 正式 文档 , 但 有 时 可 以 在 线 追 踪 到 中 文 、 韩 文 或 
日 文 文档 。 此 外 ， 内 部 LSI 器 件 可 以 通过 母 公司 发 售 ， 在 这 种 情况 下 ， 一 个 功能 列表 将 被 刊登 
在 某 处 ,但 在 看 到 完整 的 数据 表 前 可 能 需要 有 一 个 保密 协议 (NDA)。 

显然 ， 最 好 在 一 个 粗略 的 检查 过 程 中 识别 出 主要 IC， 但 即使 不 能 立即 识别 ， 这 个 过 程 也 不 
会 就 此 完结 。 可 以 执行 详细 而 昂贵 的 分 析 以 确定 确切 的 输入 和 输出 ， 并 由 此 推断 内 部 功能 。 这 
可 能 包括 研究 电压 等 级 (例如 CPU 核电 压 ) 、 时 钟 频 率 、 总 线 连接 、 去 耦 安排 等 。 更 具 破 坏 性 
地 ， 可 以 打开 设备 外 壳 ， 一 层 一 层 地 分 析 硅 层 。IC 逆向 工程 将 在 7. 12. 2. 2 节 中 进一步 讨论 。 
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7. 12. 1.4 系统 架构 

系统 架构 分 析 揭 示 了 连接 的 粗略 框图 以 及 负责 各 个 功能 项 的 子 系统 : 这 涉及 了 解 系统 内 模 
块 、 电 路 板 和 设备 之 间 的 分 区 设计 。 需 要 在 这 个 阶段 决定 的 另 一 个 重要 方面 是 确认 电源 或 接地 
层 以 及 系统 的 配 电 区 。 系 统 内 的 总 线 连接 也 需要 确认 。 调 试 端 口 或 EEE1149 JTAG ( 见 7.9.3 
节 ) 接口 的 存在 对 协助 RE 过 程 作用 显著 ， 因 此 它 的 任何 迹象 都 是 重要 的 。 线 索 可 能 包括 5 个 
测试 点 的 集合 以 及 靠近 CPU 的 上 拉 电 阻 。 

在 大 多 数 系统 中 ,各 部 件 的 电路 连续 性 测试 和 视觉 检测 以 及 它们 的 安排 可 以 相继 进行 。 例 
如 ,在 让 和 人 式 系统 中 ， 相 同 的 CPU 数据 总 线 可 能 同时 与 内存 和 SRAM 相连 。 通 过 连续 性 测试 并 结 
合 数 据 手册 很 容易 发 现 这 种 安排 。 这 种 测试 适合 球 栅 阵列 这 样 的 现代 封装 ,但 依然 存在 困难 。 电 
源 引 脚 的 位 置 往往 是 事先 可 预测 的 ， 很 容易 进行 测试 。 对 于 大 多 数 供 入 式 系统 ， 这 种 类 型 的 分 析 
是 简单 而 廉价 的 ， 但 是 正如 我 们 将 在 7. 13. 1 节 看 到 的 那样 ， 它 可 以 被 设计 师 故 意 弄 得 很 复杂 。 

尽管 对 大 多 数 系统 进行 连续 性 测试 很 容易 ， 但 是 有 时 只 有 重新 创建 和 组 织 原 理 图 时 ， 完 整 
的 体系 结构 才 会 显现 出 来 。 


7. 12.2 详细 的 物理 布局 


在 没有 丝印 布局 注释 的 地 方 ， 元 件 位 置 和 方向 的 照片 可 以 揭示 所 需 的 两 个 外 层 位 置信 息 。 接 
下 来 ， 所 有 的 元 件 将 被 移 开 ， 看 出 钻 孔 位 置 。 作 为 快速 检查 ， 可 以 比较 顶层 和 底层 孔 的 位 置 如 
果 它 们 是 相同 的 ， 那 么 就 没有 盲 孔 ， 并且 不 太 可 能 (虽然 并 不 是 不 可 能 ) 有 任何 的 埋 孔 。 

下 一 阶段 是 PCB 分 层 (通过 逐 层 剥离 )， 从 一 个 恒定 的 参考 位 置 对 每 一 层 照 相 。 这 可 以 被 
用 来 建立 一 个 正确 照相 的 层 堆栈 。 从 这 一 点 来 说 ， 它 是 相对 简单 地 复制 PCB, 但 是 还 需要 铜 和 
每 个 PCB 层 的 组 成 和 厚度 信息 。 在 实践 中 ， 可 以 通过 研究 每 层 PCB 都 有 铜 的 那 部 分 的 截面 发 
现 这 一 点 (为 此 ,许多 PCB 有 一 个 附 连 测试 板 (test coupon) 区 域 ， 因 为 制造 过 程 的 变化 会 特 
别 影响 铜 的 厚度 ， 这 反 过 来 又 会 影响 系统 性 能 ， 从 而 可 能 需要 进行 测试 ) 。 

通常 情况 下 ， 多 层 区 域 从 PCB 附 连 测试 板 上 开 孔 ， 将 对 端 (end-on) 置 于 一 个 冰球 形状 的 
模具 内 ， 模 具 用 环 氧 树脂 填充 。 设 置 时 ， 镜 片 研磨 机 可 用 来 准备 一 个 对 端 截面 ， 用 于 在 显微镜 
下 的 测量 检查 ， 由 此 可 以 简单 地 读 出 铜 厚度 和 层 厚 度 。 

对 于 大 电路 板 ， 可 能 要 从 PCB 上 的 几 个 区 域 开 孔 检 查 ， 因 为 制造 过 程 中 的 铜 蚀 刻 槽 可 能 
存在 变化 〈 如 靠近 蚀刻 槽 上 层 角 落 的 PCB 的 边缘 跟 靠 近 底 层 中 心 区 域 的 蚀刻 不 同 ， 无 论 哪 种 
情况 ， 局 部 的 铜 覆盖 密度 同样 也 会 影响 蚀刻 ) 。 

越 来 越 多 的 嵌入 式 系统 需要 对 高 速 或 无 线 电 频 率 相关 信和 号 进行 跟踪 阻抗 控制 。 在 这 种 情况 
下 ，PCB 的 确切 特征 很 重要 ， 包 括 介 电 常 数 、 预 浸 编 织 厚度 和 树脂 类 型 。 总 体 而 言 ， 阻 抗 可 以 
通过 时 域 反射 法 或 使 用 网 络 分 析 仪 来 决定 。 预 浸 料 的 类 型 和 特点 可 以 通过 显微镜 发 现 ， 树 脂 类 
型 可 以 通过 查看 整体 数据 来 决定 。 

表 7-3 给 出 了 再 构造 电器 等 效 PCB 所 需要 的 信息 的 示例 ， 正 确 照 相 的 层 堆栈 除外 。 


表 7-3 四 层 PCB 的 板 层 特性 

















名 称 组 成 厚度 名 称 组 成 厚度 
Ll 信号 1/4oz 铜 箱 0. 0176mm 13 信号 1/4oz 铜 0. 0177mm 
预 浸 材 料 7628 x2 0. 3551mm 预 浸 材料 7628 x2 0. 3543mm 
L2 信号 1/4oz 铜 0.0177mm I4 信号 1/4zo 铜 稍 0. 0176mm 
层 压 材料 FR4 0. 91 mm 总 计 1. 69mm 





X 射线 也 可 能 是 提取 布局 信息 的 一 个 可 行 方 法 ， 甚 至 可 以 提供 不 明 IC 内 部 的 有 用 信息 。 
作为 一 个 例子 ， 前 文 的 图 7-19 显示 了 安装 在 PCB 上 的 FPFGA 需 件 的 低 倍率 X 射线 ， 可 以 清楚 
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地 看 到 连 线 、 去 耦 电容 (在 PCB 的 背面 ) 和 安装 在 板子 顶层 的 FPGA 内 部 引线 框 。 实 心 圆 是 
测试 点 ， 而 空心 圆 是 连接 不 同 PCB 层 上 的 通道 的 通 孔 。 穿 过 左上 角 、 像 头发 一 样 的 线 是 焊接 
在 IC 的 一 个 引 脚 上 的 细 导 线 。 

虽然 在 物理 布局 分 析 阶 段 可 能 需要 一 些 专门 设备 〈 例 如 测量 显微镜 和 反射 仪 ) ， 但 除非 涉 
及 阻抗 控制 ， 否 则 复制 PCB 布局 和 层 堆栈 既 不 困难 也 不 昂贵 。 

7. 12. 2.1 电气 连接 原理 图 

电气 连接 最 常见 的 表示 是 网 表 ， 它 指定 了 各 个 节点 之 间 的 电气 连接 ， 通常 也 指定 连接 到 这 
些 节 点 上 的 设备 。 网 表 本 身 并 没有 考虑 到 实际 物理 定位 。 它 只 关注 节点 间 的 连接 关系 ， 尽 管 在 
实际 系统 中 物理 定位 本 身 也 很 重要 (也许 有 保留 区 以 减少 干扰 ， 或 者 是 为 了 在 高 压 环境 下 保证 
安全 ) 。 这 些 节点 通常 是 连接 元 件 的 衬 垫 和 孔 ， 连 接 通常 是 导线 或 者 PCB 走 线 。 

网 表 可 以 通过 连接 性 检查 生成 ， 可 检查 X 射线 照片 或 者 分 层 PCB 的 照片 。 这 非常 耗 时 且 
容易 出 错 ， 但 用 以 下 方法 核实 至 少 比较 简单 : (i) 在 原始 板 上 测试 预期 的 连续 性 ; (ii) 参阅 
器 件数 据 手册 上 的 预期 连接 ; (让 ) 寻找 挂 起 顶点 和 意 想不到 的 短路 ， 比 如 两 引 脚 元 件 只 连接 
了 一 个 引 脚 ， 或 一 个 两 引 脚 元 件 的 两 个 引 脚 连 接 在 了 一 起 。 

一 旦 发 现 网 表 ， 并且 设备 在 BOM 中 被 确认 ， 下 一 步 将 是 重新 建立 一 个 原理 图 来 描绘 系统 。 
由 网 表 生 成 原理 图 是 一 个 既定 的 研究 领域 ， 已 有 商业 工具 可 用 。 然 而 ， 现 实 中 大 部 分 RE 尝试 
通过 已 知 信息 重 绘 一 个 完整 的 原理 图 。 由 原理 图 再 生成 的 网 表 可 以 作为 参考 ， 与 导出 的 系统 网 
表 进 行 比较 以 纠 错 。 . 

还 要 注意 BOM 和 已 知 的 原理 图 允许 使 用 仿真 工具 来 协助 BOM 和 网 表 准 确 性 验证 。 

7. 12. 2.2 存储 程序 

在 使 用 多 个 可 编程 器 件 (如 CPU 和 FPGA) 的 地 方 ， 最 简单 的 电气 安排 会 让 每 一 个 器 件 有 
单独 的 闪存 装置 (分 别 为 CPU 和 FPGA 提供 并 行 和 串 行 连接 ) 。 然 而 ， 基 于 成 本 原因 ， 通 常 系 
统 内 所 有 非 易 失 性 程序 存储 会 聚集 到 一 个 单一 的 器 件 上 。 在 现代 内 人 式 系统 中 ， 这 个 装置 通常 
是 闪存 一 一 如 果 可 能 的 话 串 行 连 接 ， 和 否则 并 行 连接 。 

非 易 失 性 存储 器 中 的 存储 项 目 可 能 包括 独立 的 引导 代码 、CPU 操作 代码 、 系 统 配置 、FPCA 
配置 数据 或 者 其 他 特定 于 系统 的 项 目 。 在 本 小 节 中 ,我 们 考虑 决定 存储 程序 的 存储 器 位 置 的 方法 ， 
着 眼 于 它们 的 个 体 提取 方法 (在 随后 的 章节 中 ， 我 们 将 讨论 固件 /软件 程序 本 身 的 逆向 工程 ) 。 

掩 模 编程 门 阵 列 、 非 易 失 性 PLD 和 ASIC 不 需要 外 部 的 非 易 失 性 存储 器 件 ， 它 们 内 部 有 存 
储 结构 。 在 某 些 情况 下 ， 可 以 隔离 一 个 可 编程 器 件 ， 并 读 出 其 内 部 的 配置 代码 。 但 在 不 可 能 读 
出 或 设备 安全 措施 有 效 的 情况 下 ， 就 需要 大 量 的 黑 盒 子 分 析 或 内 部 检查 。 后 者 可 通过 溶解 塑料 
外 壳 或 精心 打磨 硅 层 ， 用 电子 显微镜 或 反射 的 激光 读 取 每 个 存储 位 的 状态 来 实现 。 

毫 无 疑问 ， 有 安全 设置 的 程序 存储 设备 对 道 向 工程 师 来 说 比 多 数 只 包含 单一 非 易 失 性 存储 
抉 的 设计 更 麻烦 和 昂贵 。 这 里 以 普遍 设计 为 例 ， 即 CPU 负责 为 FPGA 编程 ， 两 者 依次 从 闪存 获 
得 自己 的 代码 。 

7. 12. 2.3 软件 

从 内 存 转 储 获得 的 软件 很 容易 原样 复制 ， 变 化 只 涉及 一 些 简 单 的 调整 ， 如 重 写字 符 串 的 内 
容 来 改变 制造 商 的 名 字 、 序 列 号 和 版 本 代码 。 对 可 执行 代码 块 也 可 以 小 心地 前 切 和 粘贴 。 

与 嵌 人 式 硬 件 RE 相反 ， 各 种 规模 的 软件 RE 是 一 个 经 过 充分 研究 的 领域 。 从 好 的 方面 说 ， 
软件 RE 是 实现 面向 对 象 代码 重用 的 有 效 手 段 ， 而 从 坏 的 方面 来 看 ， 它 可 以 用 于 规避 复制 保 
护 ， 从 而 导致 软件 遭 盗 版 和 偷窃 。 没 有 迹象 显示 这 些 结 论 只 局 限于 软件 。 这 也 是 笔者 的 经 验 ， 
在 某 些 地 区 骨 入 式 系统 的 复制 和 设计 偷窃 比 其 他 领域 更 为 普遍 。 这 可 能 是 由 于 这 种 态度 的 差异 
或 针对 涉及 偷窃 的 法 律 保护 需要 变更 。 
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软件 在 嵌入 式 系统 中 扮演 着 越 来 越 重 要 的 角色 ， 虽 然 制造 商 考虑 软件 RE 和 软件 安全 是 明 
智 的 ， 但 是 总 体 而 言 ， 它 只 是 软件 RE 和 安全 保护 的 一 个 子 集 。 

然而 ,嵌入 式 系统 软件 逆向 工程 的 一 个 重要 子 集 还 有 待 讨论 。 在 典型 的 咎 入 式 系统 中 ， 它 
包括 蔡 入 式 操作 系统 、 引 导 加 载 程序 和 软件 的 非 易 失 性 存储 安排 。 考 虑 一 个 典型 的 檬 入 式 系 
统 ， 如 先前 图 7-28 中 讨论 的 那样 。 在 硬件 上 运行 的 通用 实时 操作 系统 包含 存储 在 闪存 上 的 引 
导 程序 、 操 作 系 统 和 应 用 程序 代码 。 然 而 ， 随 着 向 入 式 系 统 中 逐渐 使 用 嵌入 式 Linux， 出 现 了 
越 来 越 多 的 差异 。 这 种 嵌入 式 Linux 系统 通常 包含 如 下 项 目 : 

。 引导 代码 

。 操作 系统 

。 非 易 失 性 存储 设备 上 的 文件 系统 

。 系统 配置 设置 

e FPGA 配置 数据 

通过 移 开 设备 并 转 储 其 内 容 (静态 分 析 ) ,或 者 通过 操作 时 用 逻辑 分 析 仪 分 线 总 线 信号 
(动态 分 析 ) ， 可 以 很 容易 地 提取 非 易 失 性 存储 器 的 内 容 。 逻 辑 分 析 仪 方法 可 以 给 出 上 下 文 相 
关 的 有 用 线索 一 一 例如 ， 检 测 到 内 存 读 信号 紧 跟着 上 电 可 判定 是 引导 代码 。 然 而 ， 这 个 方法 显 
然 只 揭示 了 分 析 期 间 访 问 的 内 存 地 址 的 内 容 一 一 实际 上 是 目前 的 执行 /访问 轨迹 ， 而 以 这 种 方 
式 完全 决定 存储 的 代码 在 大 部 分 真实 系统 中 是 不 可 能 的 。 它 要 求 用 输入 信号 的 每 一 种 可 能 的 组 
合 和 时 序 ， 以 每 一 种 可 能 的 操作 模式 来 操作 系统 ， 以 保证 100% 的 代码 覆盖 率 。 然 而 ， 这 两 种 
技术 的 结合 是 一 个 功能 强大 的 分 析 工 具 。 

地 址 和 数据 总 线 通常 混杂 在 密集 的 PCB 上 以 辅助 布线 (对 它 的 解释 见 框 7.9)。 使 用 这 两 
种 方法 时 需 注意 这 种 布线 方式 会 使 分 析 复 杂 化 。 
总 线 引 脚 交 换 


对 像 四 运算 放大 器 这 样 每 个 封装 包含 不 止 一 个 放大 器 的 IC， 它 通常 无 所 谓 哪 一 个 放大 器 使 用 电路 的 
某 个 特定 部 分 。 因 此 ， 在 布局 过 程 中 ， 即 使 原理 图 把 单个 放大 器 与 电路 不 同 的 部 分 连接 在 一 起 ， 设 计 者 
也 可 以 自由 交换 它们 以 改善 布线 。 这 是 一 个 行 之 有 效 的 技术 。 

事实 上 ， 存 储 设备 也 同样 如 此 。 例 如 ， 虽然 我 们 自然 会 把 CPU 上 的 DD、D1、D2 和 D3 跟 存 储 设备 
上 的 DO、D1、D2 和 D3 相连 ,但 我 们 仍 可 以 自由 交换 位 线 。 如 果 需 要 ， 也 可 以 自由 交换 地 址 引 脚 (只 要 
CPU 总 是 用 相同 的 位 宽 访 问 内 存 一 一 否则 只 能 在 字 节 内 交换 ， 而 不 是 在 字 节 间 )。 例 如 ， 考 虑 CPU 和 存 
储 设备 之 间 的 字 节 连接 : 











似乎 这 没有 意义 ， 那么 可 以 考虑 让 CPU 写 一 个 字 节 B 到 位 置 4， 并 且 当 从 位 置 A 读 回 时 接收 相同 的 字 节 
B， 它 将 正常 运作 。 字 节 B 在 内 存 中 存储 的 确切 方式 是 不 重要 的 。 当 写 入 SRAM 中 时 ， 地 址 总 线 也 是 如 此 。 


地 址 引 脚 
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这 对 SRAM 没有 问题 ， 但 使 用 闪存 时 会 存在 一 些 问 题 。 还 记得 7.6.2 节 中 介绍 的 编程 算法 吗 ? 闪存 
期 望 接收 到 特定 的 字 节 模式 ， 这 意味 着 在 特定 引 脚 上 为 特定 位 。 如 果 系 统 设计 者 加 扰 (scramble) 数据 
总 线 ， 那 么 编程 人 员 不 得 不 解 扰 (descramble) 闪存 控制 字 和 相应 的 地 址 。 例 如 ， 使 用 上 述 加 扰 方 案 ， 如 
果 闪 存 预期 在 地 址 0x0OAA 上 收 到 字 节 0x55， 那 么 编程 人 员 需 要 写字 节 0x93 到 地 址 0x115 (如 上 面 的 表格 
所 示 ) 。 

这 里 的 总 线 加 扰 是 解决 棘手 的 PCB 布线 问题 很 常见 的 一 种 手段 。 然 而 ， 使 用 SDRAM 时 要 非常 小 心 ， 
一 些 地 址 引 脚 专门 用 于 列 地 址 ， 一 些 专门 用 于 行 地 址 〈 见 7.6.3.3 节 )。 此 外 ， 一些 SDRAM 引 脚 有 其 他 
特殊 的 含义 : 特别 是 对 于 SDRAM ， 它 实际 上 是 通过 SDRAM 控制 器 内 的 一 个 写 状 态 机 来 编程 ， 这 与 闪存 
编程 算法 类 似 ， 所 不 同 的 是 SDRAM 不 由 编程 人 员 控 制 ， 因 此 不 能 用 软件 进行 解 扰 。 

静态 闪存 分 析 首 先 需 要 确定 不 同 存储 区 域 的 范围 、 界 限 和 特性 。 在 有 可 探 除 闪存 的 分 隔 符 
的 地 方 ( 即 块 边界 上 以 0xFFFF 或 0xFF 结束 的 长 字符 串 ) ， 这 个 过 程 是 微不足道 的 。 否 则 ， 引 
导 代码 可 能 从 向 量 表 开始 并 最 可 能 保留 在 闪存 的 最 低地 址 或 者 一 个 特定 的 引导 块 中 。 一 个 FP- 
GA 编程 图 大 约 是 FPGA 数据 表 中 指定 的 大 小 ， 或 者 用 标准 算法 压缩 (zip、gzip 或 压缩 ,将 从 
可 搜索 到 的 签名 字 节 开始 ) 。 文 件 系 统 将 通过 它 的 结构 识别 (在 Linux 台式 机 上 , 一旦 计算 中 
某 些 项 目 被 转 储 用 于 分 析 ，file 命令 可 快速 地 确定 这 些 项 目的 性 质 ) 。Linux 内 核 以 及 其 他 操作 
系统 内 核 包 含 了 不 同 的 签名 码 ， 甚 至 可 能 包含 可 读 的 字符 串 (在 Linux 台式 机 上 strings 命令 将 
会 找到 并 显示 它们 ) 。 

静态 和 动态 分 析 相 结合 功能 强大 并 可 以 提供 重要 的 存储 器 内 容 信 息 。 例 如 ， 系 统 配置 数据 
可 以 存储 在 闪存 的 任何 地 方 ， 单 凭 内 容 很 难 确定 。 然 而 ， 简 单 地 操作 设备 和 改变 单一 配置 设置 
将 会 导致 内 存 内 容 的 变化 。 这 可 以 通过 比较 前 后 的 内 容 来 确定 ,或 者 用 逻辑 分 析 仪 跟踪 写 到 闪 
存 地 址 单元 中 的 内 容 。 

在 极端 情况 下 ， 闪 存 可 被 原样 复制 并 在 复制 品 中 进行 复制 。 总 体 而 言 ， 对 揭示 存储 程序 的 
非 易 失 性 存储 器 进行 逆向 工程 过 程 并 不 难 ， 除 非 设计 者 专门 采取 措施 来 保护 由 入 式 系统 软件 。 


7. 13 防止 逆向 工程 

由 于 逆向 工程 的 不 可 阻止 性 ， 这 个 问题 就 转化 为 一 个 经 济 问 题 ， 即 我 们 如 何在 最 小 化 自身 
额外 成 本 的 情况 下 ， 最 大 化 竞争 对 手 进行 逆向 工程 的 成 本 。 为 了 分 析 这 个 问题 ， 我 们 将 会 借助 
7. 12 节 中 关于 和 嵌入 式 上 下 文 环境 中 的 逆向 工程 的 描述 ， 并 对 它们 进行 分 类 。 首 先 ， 会 基于 实 
现 复杂 度 、 成 本 ， 以 及 逆向 工程 实施 者 的 经 济 影响 ， 对 抑制 方法 进行 评级 。 我 们 将 先 汇集 所 有 
典 入 式 系统 设计 者 感 兴趣 的 方法 ， 然 后 聚焦 到 其 中 与 计算 机 体系 结构 相关 的 部 分 。 

逆向 工程 抑制 方法 从 技术 上 可 以 分 为 两 个 大 类 : 专注 于 设计 时 期 的 被 动 方法 和 在 逆向 工程 
攻击 发 生 时 予以 抵抗 的 主动 方法 。 前 者 倾向 于 实施 结构 性 变化 ， 这 在 实现 上 比 后 者 要 廉价 。 我 
们 将 详细 讨论 这 两 种 方法 。 

道 向 工程 的 成 本 影响 因子 取决 于 逆向 工程 保护 措施 ， 主 要 有 三 个 影响 因子 : 

e 由 于 逆向 工程 系统 而 花费 的 更 多 的 时 间 导 致 劳动 成 本 增加 。 

e 由 于 逆向 工程 对 更 高 层次 专业 技能 的 要 求 而 导致 的 劳动 成 本 增加 。 

。 由 于 针对 逆向 工程 过 程 需要 购买 特殊 的 设备 而 导致 的 成 本 增加 。 

在 某 些 情况 下 ， 如 果 需 要 额外 的 组 件 ， 则 还 会 增加 BOM 成 本 。 

按照 7. 12. 1 节 中 对 逆向 工程 过 程 的 描述 ， 第 一 个 层次 的 保护 可 以 应 用 于 功能 评估 : 逆向 
工程 阶段 A。 在 这 种 情况 下 ， 限 制服 务 手册 和 文档 的 发 布 ， 可 以 降低 逆向 工程 团队 的 信息 获取 
度 。 制 造 商 应 该 控制 、 监 督 ， 甚 至 在 理想 情况 下 限制 员工 不 经 意 地 提供 相关 信息 ， 尤 其 是 上 传 
到 网 上 的 信息 。 这 无 疑 将 会 增加 逆向 工程 所 花费 的 时 间 和 努力 。 

阶段 B， 通 过 使 用 防 算 改 的 配件 (如 torx) 和 定制 的 螺丝 形状 让 人 必须 购买 这 些 特殊 的 设 
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备 才 能 进行 物理 结构 的 分 析 ， 以 此 稍微 增加 物理 结构 的 分 析 难 度 。 单 向 螺丝 和 胶 接 外 壳 起 着 相 
似 的 作用 。 全 灌 封 的 PCB 提供 了 另 一 层次 的 保护 。 在 最 小 成 本 的 情况 下 ， 令 人 不 愿 使 用 这 些 
方法 的 主要 诱因 是 产品 的 可 服务 性 ， 这 通常 是 产品 必须 具备 的 。 

连接 线 没有 使 用 颜色 编码 可 能 会 使 得 制造 和 服务 过 程 变 得 复杂 ， 但 这 会 给 逆向 工程 团队 造 
成 更 大 的 困难 ， 从 而 阻碍 他 们 的 工作 。 

不 同 寻常 、 定 制 和 匿名 的 部 件 会 在 阶段 C 中 使 逆向 工程 的 系统 材料 清单 (BOM) 变 得 复 
杂 。 然 而 ， 无 源 器 件 (在 阶段 C. 2) 会 很 容易 被 移 除 并 对 其 做 单独 的 测试 。 丝 印 的 缺失 会 给 制 
造 和 服务 造成 一 定 的 困难 ， 但 是 也 会 相应 地 在 阶段 C.3、E. 1、E.2 和 下 减少 提供 给 逆向 工程 
团队 的 信息 。 但 是 ， 到 目前 为 止 最 为 有 效 的 防止 BOM 被 逆向 的 方法 就 是 使 用 定制 芯片 (或 者 
使 用 逆向 工程 团队 无 法 购买 到 的 芯片 ) 。 在 阶段 C.1， 逆 向 工程 师 面 对 的 是 大 量 无 标记 的 最 小 
化 无 源 器 件 组 成 的 集成 电路 ， 没 有 丝印 ， 也 没有 更 进一步 的 信息 ， 这 的 确 会 有 效 地 给 他 们 的 逆 
向 工程 增加 困难 和 花费 。 确 认 并 复制 或 者 只 是 确认 芯片 就 会 显著 增加 他 们 的 开销 和 前 期 成 本 ， 
这 样 高 的 成 本 只 有 在 大 规模 生产 时 才 是 经 济 可 行 的 。 

从 最 佳 安全 性 方面 考虑 ，JTAG (7. 9.3 节 ) 和 其 他 的 调试 端口 都 应 该 从 半 定 制 的 芯片 上 移 
除 ， 而 且 不 要 从 标准 部 件 连接 到 连接 器 或 者 测试 板 上 ， 更 不 应 该 标记 TDI、TDO 、TMS 、TCK。 
对 于 有 引 脚 暴露 在 外 的 封装 器 件 ， 这 些 还 是 很 容易 被 访问 到 。 这 种 情况 下 ，BGA ( 球 机 阵列 ) 
器 件 就 是 首选 。 但 即使 是 BGA 器 件 ， 未 布线 JTAG 引 脚 往往 仍 可 以 通过 从 PCB 的 另 一 面 深度 
钻探 而 被 访问 到 ， 这 意味 着 背靠背 式 的 BGA 布局 是 最 安全 的 〈 例 如 ， 在 PCB 的 一 侧 放置 BGA 
CPU， 而 在 其 正 下 方 的 板 对面 安 装 BGA 闪存 设备 ) 。 这 种 做 法 的 劣势 在 于 双 面 布局 会 增加 制造 
的 成 本 。 双 面 的 BGA 仅仅 是 更 贵 的 一 步 ， 并 不 一 定 能 防止 逆向 工程 ， 因 为 还 是 有 可 能 (虽然 
极其 困难 ) 移 除 BGA 器 件 ， 重 新 形成 焊 球 ， 然 后 改装 成 一 个 焊接 到 PCB 上 的 载体 的 。 通 过 载 
体 的 中 间 信 号 可 以 用 于 分 析 。 

背靠背 式 的 BGA 封装 通常 需要 盲 孔 或 者 埋 孔 ， 这 会 使 得 PCB 制造 成 本 增加 (根据 经 验 是 
10% ) ， 布 局 过 程 也 变 得 复杂 ， 从 而 明显 影响 硬件 调试 和 所 需要 的 改动 。 然 而 ， 紧 凑 的 PCB 也 
成 为 产品 的 一 个 特点 。 相 应 地 ，PCB 的 层 数 也 经 常 需要 增加 以 适应 背靠背 式 的 布局 ， 因 此 也 增 
加 了 逆向 工程 中 划分 层次 和 逐 层 分 析 的 成 本 。 对 于 多 层 的 PCB 设计 ， 通 过 使 用 X 射线 在 阶段 
E.2 和 了 .3 来 分 析 布 局 的 细节 是 很 困难 的 ， 并 且 通 过 对 所 有 可 用 空间 填补 电源 平面 的 方法 ， 可 
以 使 得 这 种 分 析 更 加 复杂 化 。 电 源 平面 的 填充 会 在 X 射线 照片 上 形成 交叉 阴影 线 ， 掩盖 内 层 的 
单个 器 件 的 信息 。 

在 E.2 阶段 ， 当 器 件 以 非 寻 常 的 方式 来 操作 时 ， 如 跳跃 的 地 址 和 数据 总 线 ， 电 气 连接 就 会 
很 难 确定 。 连 接 没 有 使 用 的 引 脚 在 不 增加 制造 成 本 的 同时 ， 却 给 逆向 工程 增加 了 困难 。 


7. 13.1 存储 程序 的 被 动 模糊 


对 于 和 肉 入 式 系统 中 存储 的 代码 ， 可 以 找到 很 多 结构 化 的 方法 来 使 之 产生 模糊 ， 这 使 得 RE 
的 G.1 和 G. 2 变 得 更 加 复杂 。 我 们 不 会 更 多 地 讨论 这 个 问题 ， 因 为 这 是 一 个 热门 的 研究 领域 。 
然而 ， 这 里 有 另外 一 些 体 系 结构 方面 的 问题 我 们 可 以 进行 探讨 。 

首先 ， 如 前 所 述 ， 代 码 段 之 间 的 部 分 (闪存 中 非 可 擦 除 部 分 ) 可 以 填充 随机 数字 或 者 元 
余 代码 ， 致 使 对 于 分 离 内 存 区 域 的 监测 没有 意义 。 与 初始 引导 代码 不 同 ， 如 果 不 需 要 从 闪存 执 
行 代码 ， 闪 存 的 其 他 部 分 同样 可 以 被 加 密 。 这 将 使 对 于 闪存 内 容 的 分 析 变 得 困难 。 然 而 ， 对 于 
未 被 加 密 的 引导 代码 ， 则 很 容易 追踪 和 分 解 ， 并 从 中 发 现 系 统 未 加 密 的 入口 点 ， 致 使 这 种 加 密 
策略 的 安全 性 受到 质疑 。 

在 闪存 范围 内 分 散 代码 、 数 据 和 配置 内 容 将 会 带 来 一 些 编程 上 的 困难 ， 但 是 却 是 应 对 存储 
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程序 分 析 的 主要 保护 手段 。 如 果 一 个 FPGA 图 像 被 存储 在 闪存 中 ， 那 么 一 种 简单 的 模糊 方法 是 
对 其 每 个 数据 字 节 与 闪存 其 他 区 域 中 的 数据 字 节 做 异 或 运算 ， 并 存储 成 一 种 定制 的 压缩 FPCGA 
图 像 (不 是 gzip 、zip 或 者 相似 的 有 可 识别 签名 的 方式 ) 。 

这 里 所 讨论 的 几 种 防止 RE 的 方法 在 表 7-4 中 汇总 给 出 。 其 中 ， 增 加 的 RE 成 本 和 所 付出 
的 设计 成 本 以 及 对 制造 的 影响 以 一 种 5 点 评分 法 来 标注 。 


表 7-4 ”增加 硬件 逆向 工程 成 本 的 被 动 方法 评定 指标 ，5 = 增加 得 最 多 ，0 = 增加 得 最 少 









































设计 成 本 | 逆向 工程 成 本 | 制造 影响 设计 成 本 | 逆向 工程 成 本 | 制造 影响 
防臭 改 妮 条 | 2 0 1 “| 并 孔 或 埋 也 | 2 2 4 
胶 接 外 壳 1 1 | |8 线 信 吕 | 1 1 0 

灌 封 1 1 2 ASIC 信号 路 由 5 3 学 

无 丝印 1 1 1 FPGA 信和 号 路 由 2 这 2 
擦 除 元 件 标识 符 1 1 2 | 无 调试 端口 I 1 2 
使 用 BGA 封装 | 1 3 3 | 随机 填充 未 使 用 的 内 存 | ”2 2 0 
只 有 内 层 布线 2 | 2 3 














7. 13.2 可 编程 逻辑 家 族 


基于 SRAM 的 FPCA 通常 需要 一 种 配置 比特 流 。 这 种 比特 流 由 外 部 器 件 提供 ,例如 串 行 办 
存 配置 器 ， 或 者 像 示 例 系 统 那 样 由 微 处 理 器 提供 。 因 为 物理 上 这 种 比特 流 可 以 通过 很 小 的 代价 
获得 ， 所 以 经 常会 通过 读 出 和 复制 的 方式 拷贝 这 种 固件 。 

基于 EEPROM 的 可 编程 逻辑 器 件 (PLD) (代替 了 EPROM 版 本 ) 和 新 型 的 基于 闪存 的 产 
品 更 为 安全 ， 因 为 配置 程序 存储 在 内 部 ， 无 须 在 复位 时 传递 到 设备 中 。 注 意 一 些 带 有 闪存 的 设 
备 实 际 上 包含 两 个 硅 片 ， 一 个 存储 芯片 和 一 个 逻辑 芯片 ， 因 此 使 安全 性 降低 ， 因 为 一 旦 外 封装 
被 拆除 就 可 以 读 取 到 配置 比特 流 。 通 常 来 讲 ， 那 些 在 复位 之 后 需要 马上 配置 的 设备 通常 包含 分 
布 在 硅 片 周围 的 非 易 失 内 存单 元 ， 在 复位 后 需要 几 毫 秒 进行 配置 ， 其间 配置 比特 流 可 以 被 获 
取 。 在 任何 一 种 情况 下 ， 包括 从 Altera 到 Xilinx 在 内 的 大 多 数 设备 都 会 提供 安全 设置 以 阻止 从 
正在 配置 的 设备 中 读 取 比特 流 。 在 此 强烈 建议 使 用 这 种 特性 。 

在 通常 的 单元 结构 设备 中 ,包括 掩 模 编 程 门 阵列 (MPCGA) ， 内 存 配置 单元 的 位 置 是 已 知 
的 ,根据 设 备 制造 商 的 设备 分 类 可 以 确定 。 通 过 使 用 7. 12.2.2 节 介 绍 的 方法 ， 配 置 数据 和 原 
始 程序 就 可 以 被 获取 ， 虽 然 这 也 需要 复杂 的 技术 支持 。 

通过 逐 层 分 析 硅 片 (类 似 于 PCB 划分 ， 但 需要 对 硅 层 进行 细致 的 研磨 ) ， 一 个 全 定制 ASIC 
也 可 以 被 逆向 工程 化 。 但 是 可 以 通过 一 些 策略 使 之 复杂 化 ， 例 如 加 入 网 状 覆 盖 层 。 反 熔 丝 
(antifuse) FPGA 通常 被 看 作 一 种 最 安全 的 标准 可 编程 逻辑 设备 ， 因 为 其 熔 丝 位 置 在 较 深 的 硅 
布线 层 之 下 ， 而 不 是 暴露 于 表面 。 

在 RE 系统 中 包括 ASIC 和 反 熔 丝 FPGA 并 非 不 可 能 ， 但 需要 高 水 平 的 专家 ， 使 用 昂贵 的 专 
门 设备 ， 耗 费 大 量 的 时 间 。 


7. 13.3 主动 RE 防范 


在 7.13.1 节 中 提供 的 被 动 RE 防范 方法 也 有 主动 版 本 。 可 以 通过 使 用 处 理 器 多 余 的 输入 和 
输出 引 脚 路 由 那些 时 间 上 不 关键 但 功能 关键 的 信号 ， 从 而 达到 模糊 电气 连接 的 目的 。 

跳 牙 地 址 和 数据 总 线 对 于 RE 来 说 已 经 很 困难 了 ， 而 动态 跳跃 总 线 将 会 使 RE 更 加 困难 ， 
但 同时 也 增加 了 为 防范 RE 所 付出 的 代价 ， 因 为 主动 设备 必须 增加 跳跃 / 解 跳跃 总 线 的 功能 。 

ASIC 有 可 能 是 防范 RE 企图 的 最 终 方法 ,但 看 似 平常 的 FPGA 方法 也 会 相当 高 效 。 在 这 两 
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种 情况 中 ,在 逻辑 电路 中 实现 的 人 P 核心 不 容易 辨识 和 分 离 出 来 ， 且 可 以 通过 各 种 方法 存 取 外 
部 存储 程序 一 一 可 以 线性 地 、 非 线性 地 存 取 ， 或 者 使 用 置换 或 加 密 方法 。 一 个 完全 定制 且 没 有 
任何 公开 文档 的 CPU 内 核 可 以 通过 保护 指令 集体 系 结构 细节 进一步 增加 安全 性 。 进 而 ， 在 每 
个 版 本 的 产品 实现 中 对 指令 集 可 以 稍 加 变化 从 而 防止 对 核心 程序 反复 RE。 这 是 一 个 不 昂贵 的 
软件 /固件 保护 措施 。 


7. 13.4 主动 RE 防范 分 类 


RE 防范 (RE mitigation) 的 基本 形式 可 以 从 两 个 方向 上 细 分 : 一 是 主动 模糊 方法 ， 即 隐 
藏 ; 二 是 达到 主动 模糊 目的 的 时 间或 空间 方法 。 任 何 现实 系统 都 可 以 通过 结合 这 些 方法 达到 最 
大 化 的 效果 。 

信息 隐藏 (information hiding) 利用 现 有 资源 通过 各 种 方法 对 攻击 者 隐藏 信息 。 通 常 采用 
的 方法 是 组 合 代 码 与 数据 ， 将 软件 隐藏 在 像 启动 引导 映像 这 样 的 数组 中 ， 或 以 不 明显 的 方式 读 
数据 来 实现 信息 共享 ， 还 包括 在 边界 电压 上 运行 设备 ， 依 靠 非常 规 握 手 和 数据 处 理 策略 等 。 

模糊 主要 作为 一 种 被 动 方法 〈 例 如 在 程序 中 交换 标签 名 和 功能 名 ， 或 者 搞 乱 PCB 丝印 注 
释 ) ， 也 可 以 用 于 主动 防范 ， 例 如 改变 总 线 连接 和 设备 引 脚 使 用 方式 〈 如 多 路 选 通 中 断 输 入 引 
脚 和 信和 号 输出 引 脚 ) 。 这 是 又 一 种 利用 已 有 资源 进行 专门 的 设计 ， 误 导 RE 团队 使 RE 过 程 复杂 
化 的 方法 。 

还 可 以 增加 一 些 资源 刻意 误导 或 扰乱 RE 团队 。 其 中 可 能 包括 大 量 的 伪 随 机 数据 传输 、 乱 
序 代码 读 取 等 。 也 可 以 在 传输 信号 上 释 加 上 随机 调制 的 电压 信号 ， 或 采用 有 某 种 意义 的 信号 驱 
动 匈 余 信 号 线 。 动 态 地 看 ， 这 或 许 包 括 一 些 基于 算 改 监测 的 模式 变化 或 相应 的 极端 反应 。 

空间 方法 作用 于 布局 和 联通 层 ， 例 如 ， 根 据 存储 器 地 址 打 乱 总 线 顺 序 ， 以 不 明显 的 方式 开 
关 信 号 路 径路 由 设备 。 

时 间 方 法 通过 修改 事件 序列 或 时 间 来 实现 模糊 。 例 如 ， 引 导 加 载 程序 只 执行 所 取 人 指令 的 
一 个 子 集 。 又 如 ,一 个 能 够 从 存储 器 中 预 取代 码 页 的 存储 管理 器 件 以 非 线性 方式 存 取 ， 尤 其 是 
与 执行 顺序 不 一 致 时 。 

这 些 分 类 组 合 如 表 7-5 所 示 ， 其 中 标 出 了 相关 强度 级 别 。 


表 7-5 ”主动 防范 方法 的 相关 强度 ，5 一 一 最 高 ，0 一 一 最 低 


静态 方法 动态 方法 静态 方法 
0 2 刻意 扰乱 4 
' 


从 开销 上 说 ,与 静态 方法 相 比 ， 动 态 方法 用 于 开发 、 调 试 和 测试 的 开销 会 更 多 ， 同 时 还 会 
增加 制造 和 服务 成 本 。 信 息 隐藏 和 模糊 方法 的 开发 成 本 类 似 ， 主 要 是 增加 了 NRE。 而 刻意 扰乱 
方法 与 前 两 种 方法 相 比 无 疑 会 带 来 更 多 的 开发 成 本 ， 且 会 提高 制造 成 本 。 

很 显然 用 户 定制 芯片 通过 实现 主动 模糊 和 保护 措施 可 以 提供 最 大 程度 的 保护 。 在 出 于 安全 
目的 构建 全 定制 ASIC 时 ， 如 果 开 发 者 比较 在 乎 成 本 ， 可 以 考虑 开发 一 些 通用 全 定制 安全 
ASIC， 以 适用 于 一 系列 产品 。 对 于 RE 而 言 ， 若 设计 采用 了 主动 保护 方法 ， 特 别 是 动态 时 间 方 
法 ， 则 意味 着 需要 有 技术 更 加 高 超 的 工程 师 队 伍 ， 他 们 需要 使 用 一 些 专门 设备 。 例 如 ， 若 要 分 
析 以 最 低 限度 工作 的 时 序 信号 ， 则 需要 使 用 带 有 非常 低 电 容 有 源 探测 器 的 高 速 数字 示波器 ， 甚 
至 使 用 超 导 量 子 干涉 设备 〈(SQUID ) 。 对 于 非常 规 握手 机 制 的 分 析 则 需要 多 信道 向 量 分 析 仪 ， 
这 种 设备 非常 昂贵 。 























7. 14 ” 软 核 处 理 器 

软 核 〈 或 软 核 处 理 器 ) 是 一 种 用 逻辑 语言 编写 的 CPU 设计 ， 风 辑 语言 允许 在 可 编程 逻辑 
器 件 中 合成 。 通 常 使 用 的 是 Verilog 或 VHDL“ 这 类 高 级 语言 ,最 终 在 现场 可 编程 门 阵列 
(FPGA) 合成 。 

这 与 大 多 数 处 理 器 制造 商 的 立场 不 同 ， 后 者 更 倾向 于 创建 针对 其 半导体 制造 合作 伙伴 的 半 
导体 制造 工艺 的 底层 设计 。 这 主要 是 因为 需要 从 正在 处 理 的 硅 中 挤 出 最 佳 性 能 。 有 时 软 核 与 半 
导体 制造 工艺 的 底层 设计 都 是 需要 的 ， 软 核 设 计 主 要 针对 特定 的 处 理 器 〈 例 如 AMR ) 。 在 这 种 
情况 下 ， 软 核 设计 通常 在 使 用 位 置 上 更 加 灵活 ， 但 相应 的 性 能 也 会 较 差 (速度 较 慢 ， 功 耗 较 高 ) 。 

可 用 的 软 核 处 理 器 非常 多 ， 而 它们 大 多 数 是 免费 的 >。 尽 管 它们 在 FFGA 上 执行 时 ， 效 率 、 
速度 或 成 本 方面 几乎 都 不 能 与 专用 的 维 处 理 器 相提并论 。 

还 可 以 使 用 商用 核 〈 主 要 的 FPGA 供应 商都 有 这 样 的 软 核 ) 或 者 自己 设计 软 核 。 接 下 来 将 
会 对 软 核 进 行 剖 析 ， 然 后 考虑 上 述 三 种 获得 软 核 的 方法 的 可 能 性 。 


7. 14. 1 微 处 理 器 不 仅仅 是 核心 


FPGA 上 的 软 核 处 理 器 实际 上 是 一 个 可 作为 CPU 运行 的 逻辑 块 。 最 简单 的 情况 是 ， 这 个 逻 
辑 块 在 复位 和 接受 时 钟 反馈 时 ， 将 加 载 数据 并 按 程序 中 指定 的 步骤 处 理 。 该 程序 可 置 于 FPGA 
内 部 ， 也 可 以 置 于 外 部 存储 器 (RAM 或 闪存 ) 中 ， 就 像 大 多 数 舱 入 式 系 统一 样 。 

这 种 布局 很 合理 ， 然 而 微 处 理 器 不 仅仅 是 核心 。 参 阅 7. 2 节 中 讨论 的 流 形 的 基于 AMR 的 
三 星 S3C2410 处 理 器 提供 的 特性 ， 它 提供 了 一 长 串 的 内 部 功能 和 外 设 ， 包 括 以 下 主要 特性 : 

e。 16KiB 指令 、16KiB 数据 缓存 及 内 部 MMU。 


。 外 部 SDRAM 的 内 存 控制 器 。 

。 彩色 LCD 控制 器 。 

e 大 量 串 行 端口 ，UART，SPI，IrDA，USB ，IIC 等 。 

e 数字 安全 (Secure Digital，SD) 及 多 媒体 记忆 卡 (Multimedia Card，MMC) 接口 。 
e 一 个 8 通道 10 位 模 数 转换 器 (Analog-to- Digital Converter，ADC) 及 触摸 屏 接口 。 
e 人 带 日 历 功能 的 实时 时 钟 。 


显然 处 理 器 核心 自身 (这 在 三 星 自己 的 文档 中 并 没有 列 出 ) 只 构成 了 名 为 S3C2410 的 IC 
的 一 小 部 分 ， 它 被 买 进 并 包含 在 嵌入 式 系统 中 。 

进一步 地 ， 如 果 工 程 师 以 某 种 方式 获得 了 用 高 级 HDL 编写 的 ARM 处 理 器 核心 ， 并 将 其 加 
载 到 FPGA 中 ， 这 是 无 法 获得 一 个 功能 齐全 的 微 处 理 器 的 。 此 外 ， 这 也 不 太 可 能 在 FPGA 中 以 
接近 S3C2410 的 200MHz 的 频率 运行 ( 即使 宣称 在 FPGA 中 支持 1GHz 时 钟 速度 ) 。 

而 在 FPCA 上 实现 所 有 其 他 外 设 和 接口 所 需 的 额外 工作 量 过 多 了 ， 最 终结 果 将 是 整体 比 现 
成 的 ARM 更 慢 、 更 耗 电 并 且 更 昂贵 。 

鉴于 这 些 缺 点 ， 为 什么 还 有 人 考虑 使 用 软 核 呢 ? 


7. 14.2 软 核 处 理 器 的 优点 


全 球 大 概 有 数 亿 个 由 软 核 驱动 的 系统 ， 虽 然 这 无 法 与 已 经 构建 了 数 千 亿 个 的 AMR 设备 相 
比较 ， 但 这 提供 足够 好 的 理由 来 选择 软 核 。 接 下 来 将 会 在 注重 性 能 、 可 用 性 和 效率 等 方面 介绍 
一 些 软 核 的 优点 。 





加 VHDL 代表 “VHSIC 硬件 描述 语言 "， 其 中 VHSIC 指 的 是 “非常 高 速 的 集成 电路 ”。 
加 有 关 免 费 处 理 器 和 其 他 “IP” 内 核 ， 请 参阅 www. opencores. org 上 的 项 目 集 ， 其 中 卫 指 的 是 “知识 产权 ”。 
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7. 14.2.1 性 能 
毫 无 疑问 标准 处 理 器 的 性 能 是 更 好 的 ， 之 前 也 提 及 过 软 核 通常 会 比 专用 设备 更 慢 。 虽 然 这 
是 个 事实 ， 但 需要 记 住 有 些 性 能 问题 比 时 钟 速度 更 为 重要 。 


并 行 系统 允许 多 个 处 理 器 或 处 理 器 核心 并 行 运行 。 在 单个 CPU 中 包含 几 个 甚至 多 个 软 
核 使 搭建 并 行 系统 非常 容易 。 当 然 ， 学 习 如 何 有 效 地 使 用 这 些 多 核 也 是 一 项 不 容 忽视 
的 任务 。 

CISC 方法 以 创建 程序 员 所 需 的 自 定义 指令 闻名 。 相 对 地 ，RISC 消除 了 复杂 或 不 常用 的 
指令 ， 只 专注 于 使 最 常见 的 指令 更 快 (这 样 复杂 的 CISC 指令 就 可 以 由 多 个 简单 的 
RISC 指令 执行 ) 。 然 而 在 从 入 式 系统 中 ， 代 码 通常 是 小 且 不 变 的 ， 这 很 可 能 会 选择 执 
行 一 组 不 同 的 指令 集 。 例 如 ， 在 执行 许多 除法 计算 而 没有 逻辑 运算 的 系统 中 ， 最 佳 
RISC 处 理 器 也 许 就 会 具有 除法 器 ， 但 只 有 很 少 的 逻辑 指令 。 在 代码 已 知 并 固定 的 情况 
下 ， 为 了 快速 执行 该 代码 ， 确 实 需要 专门 设计 的 指令 集 。 

即使 不 修改 指令 集 以 适应 特定 代码 段 ， 也 总 是 可 以 在 专用 功能 单元 或 协 处 理 器 上 添加 
到 FPGA 内 的 给 定 内 核 。 在 上 述 例子 中 ， 我 们 可 以 选择 添加 一 个 除法 单元 到 标准 核 里 。 
虽然 有 些 部 件 具 有 外 部 协 处 理 器 接口 ， 但 不 能 以 这 种 方式 修改 现成 的 部 分 。 

以 VHDL 或 Verilog 提供 的 软 核 通常 不 包含 复杂 的 总 线 ， 并 且 没 有 内 存 (有 时 其 至 没有 
缓存 ) 。 因 此 ,在 FPGA 中 使 用 它们 的 设计 者 必须 在 它们 周围 构建 总 线 和 存储 器 。 虽 然 
这 看 起 来 像 是 一 个 缺点 ， 但 通过 创建 与 应 用 程序 匹配 的 专用 总 线 可 将 这 化 为 优势 。 相 
对 地 ， 现 成 的 标准 部 件 选择 实现 的 总 线 方案 与 应 用 程序 就 没 那么 匹配 。 


7. 14.2.2 可 用 性 
可 用 性 在 软 核 的 背景 下 有 两 个 含义 。 第 一 个 涉及 获取 和 使 用 设备 的 便捷 性 ， 第 二 个 涉及 确 
保 处 理 器 在 需要 时 正常 工作 。 我 们 将 阐述 这 两 个 含义 : 


产品 设计 人 员 (作者 有 相关 工作 经 历 ) 需要 在 硬件 设计 中 标准 化 CPU， 努 力 实现 产品 
发 布 ， 然 后 从 发 布 开始 后 几 天 收 到 CPU 供应 商 的 通知 ， 得 知 他 们 现在 正在 使 用 的 设备 
已 经 到 期 (生命 终结 ) 。 这 时 需要 对 软件 和 硬件 进行 非常 基础 的 重新 设计 。 虽 然 大 众 
市 场 产品 的 设计 师 不 太 可 能 出 现 这 种 情况 ， 但 对 于 中 小 型 能 和 人 式 系统 公司 来 说 ， 这 种 
情况 十 分 常见 。 考 虑 到 这 一 点 , 拥有 自己 的 CPU 设计 十 分 重要 : 可 以 永远 保留 ， 并 且 
永远 不 会 被 前 减 成 本 的 半导体 供应 商 所 所 弃 。 可 以 根据 需要 在 任何 设计 方案 中 对 此 进 
行 编程 ， 重 用 代码 、 硬 件 ， 进 行 扩 展 和 修改 。 虽 然 它 是 在 FPGA 中 合成 的 ， 并且 特 定 
的 FPGA 可 能 会 进入 EOL, 但 是 只 要 切换 到 另 一 个 FFGA，, 使 用 相同 的 代码 与 处 理 带 ， 
就 有 可 能 加 快运 行 速度 。 

欧洲 和 北美 以 外 的 国家 的 设计 师 也 会 遇 到 类 似 的 问题 。 新 的 CPU 上 市 需要 时 间 ， 而 且 
积累 库存 通常 很 慢 且 难以 使 用 。 同 样 ， 对 于 希望 购买 数 万 台 设备 的 公司 来 说 ， 这 通常 
不 是 问题 ， 但 对 于 中 小 型 嵌入 式 公司 来 说 ， 就 会 有 些 困 难 。 例 如 ， 在 新 加 坡 ， 我 几乎 
不 可 能 购买 少 于 100 台 的 设备 ， 这 实际 上 阻碍 了 原型 制作 。 值 得 庆幸 的 是 ，FPCA 供应 
商 对 小 型 公司 和 个 人 考虑 更 加 周全 。 

电子 系统 的 可 用 性 指 确保 系统 正常 工作 ， 并 在 需要 时 正常 工作 。 良 好 的 设计 是 确保 可 
靠 性 的 关键 ， 但 有 时 ， 为 了 确保 CPU 正常 工作 以 及 确保 它 的 可 用 性 ， 有 必要 对 其 进行 
复制 。 因 此 ， 两 个 CPU 提供 的 性 能 可 能 比 一 个 好 。 事 实 上 ， 三 个 比 两 个 好 ， 依 次 类 
推 。 软 核 可 以 根据 需要 进行 复制 和 并 行 化 ， 在 开启 时 仅 消 耗 FPGA 资源 和 功率 。 复 制 
的 专用 处 理 器 需要 两 倍 的 集成 电路 规模 以 及 两 倍 的 成 本 。 


7. 14. 2.3 效率 
效率 可 以 根据 功率 、 成 本 、 空 间 等 因素 来 衡量 。 事 实证 明 ， 每 个 软 核 的 这 些 因素 都 存在 不 
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平衡 ， 这 些 与 以 下 原因 有 关 : 
。 7.14. 1 节 中 令 人 印象 深刻 的 S3C2410 功能 列表 让 设计 人 员 很 难 在 自 定 义 软 核 设 计 中 进 
行 复制 。 但 是 ， 这 些 功 能 真 的 有 必要 全 部 复制 吗 ? 在 设计 一 个 适合 所 有 人 使 用 的 解决 
方案 时 ， 答 案 是 肯定 的 ， 但 是 在 个 别 情况 下 ， 这 些 功 能 中 只 有 一 小 部 分 可 能 是 必需 的 ， 
因此 答案 可 能 是 “不 ”。 软 核 往往 只 包括 那些 绝对 必要 的 功能 、 接 口 和 外 设 。 它 们 不 
会 像 标准 部 件 那样 在 未 使 用 的 功能 上 浪费 硅 空 间 (或 FPGA 单元 ) ， 而 且 这 样 做 有 时 会 
比 它们 的 标准 同类 产品 更 有 效 。 
。 胶 连 逻辑 是 指 连接 微 处 理 器 和 其 他 部 分 的 设备 ， 包 括 逆 变 器 、AND 门 等 项 目 。 有 时 ， 
使 用 小 型 FPGA 可 以 满足 对 胶 连 逻辑 的 大 量 需求 。 鉴 于 胶 连 逻辑 无 处 不 在 ， 用 FPCA 实 
现 的 软 核 取代 标准 微 处 理 器 也 可 以 让 设计 人 员 将 所 有 胶 连 逻辑 整合 到 同一 个 FPCA 中 。 
有 时 ， 结 果 将 是 减少 PCB 空间 、 降 低 制 造成 本 等 ， 优 于 专用 CPU 设计 。 
7. 14. 2.4 人 为 因素 
工程 师 和 计算 机 科学 家 经 常 忽视 人 为 因素 ， 然 而， 考虑 人 为 因素 与 技术 考量 同等 重要 。 人 
们 可 以 看 到 一 些 工程 师 在 小 组 设计 会 议 中 发 现 想法 被 否决 时 会 有 多 么 泪 表 和 无 法 理解 。 考 虑 软 
核 的 一 些 人 为 因素 可 能 包括 以 下 内 容 : 
。 开发 自己 的 计算 机 很 有 趣 。 精 力 充 沛 的 设计 工程 师 既 高 效 又 勤奋 。 做 有 趣 的 事情 能 让 
人 精力 充沛 ， 而 大 多 数 工 程 师 认 为 构建 定制 的 软 核 妙趣 横生 ,但 管理 者 可 能 都 没有 意 
识 到 这 一 点 。 
。 设计 的 所 有 权 虽 然 存 在 上 述 非 理性 行为 的 风险 ， 却 是 工程 师 的 另 一 个 动力 ， 并 有 助 于 
实现 完美 的 设计 。 
。 在 着 手 一 个 新 的 嵌入 式 设计 项 目 时 ， 通常 需要 考虑 哪个 藤 入 式 处 理 器 应 该 为 新 项 目 提 
供 动力 。 一 般 根据 设计 要 求 确定 各 种 设备 的 “适合 度 ”， 并 且 至 少 在 理论 上 进行 最 佳 
选择 〈 当 各 方 推动 他 们 自己 的 议程 时 ， 这 个 过 程 可 能 会 引发 更 多 的 非 理 性 行为 )。 然 
而 ， 然 而 ， 在 实际 执行 中 很 少 考虑 到 重新 培训 工程 师 使 用 新 微 处 理 器 所 需 的 “学 习 曲 
线 "” 。 有 设计 人 员 需 要 数 月 熟悉 新 设备 ， 或 者 可 能 会 因 初 学 者 的 意外 错误 而 延长 设计 过 
程 。 使 用 团队 熟悉 的 设备 通常 更 会 节省 时 间 ， 但 不 太 合适 。 使 用 软 核 有 助 于 实现 这 一 
点 , 一旦 团队 熟悉 该 软 核 ， 就 可 以 在 接 下 来 的 许多 设计 中 使 用 。 可 以 对 基于 FPGA 的 
外 设 、 功 能 单元 和 协 处 理 器 进行 微小 的 更 改 ， 以 确保 内 核 仍然 是 新 项 目的 最 佳 选 择 ， 
而 不 需要 让 团队 参与 元 长 的 再 培训 活动 。 


7. 15 ”硬件 软件 协同 设计 


硬件 软件 协同 设计 是 指 同时 包含 硬件 和 软件 的 系统 设计 过 程 ， 由 于 嵌入 式 系统 通常 需要 定 
制 硬件 和 软件 ， 因 此 与 硬件 软件 协同 设计 密切 相关 。 

:台式 机 系统 中 ， 通 常 通过 诊断 软件 来 测试 硬件 功能 。 在 设计 新 的 PC 时 ， 可 以 将 在 上 一 
代 PC 上 运行 无 误 的 诊断 软件 在 新 的 硬件 上 运行 以 检查 功能 是 否 正常。 

在 嵌入 式 系统 中 硬件 和 软件 通常 一 起 开发 ， 单 赁 其 中 任何 一 方 都 无 法 证 明 没有 错误 ， 这 将 
导致 两 者 无 法 分 开 测试 ， 因 此 在 硬件 和 软件 领域 (甚至 跨 领域 ) 的 调试 和 开发 系统 都 变 得 更 
加 困难 e。 

假定 设计 一 个 包含 FPGA 和 CPU 的 系统 ， 如 图 7-29 所 示 。 嵌 入 式 系统 的 设计 人 员 在 了 解 
需求 后 决定 如 何 实现 这 些 需 求 。 其 中 一 部 分 将 在 软件 中 实现 ， 一 部 分 将 在 硬件 中 实现 ， 还 有 许 





加 ”硬件 工程 师 在 功能 无 法 正常 发 挥 作 用 时 可 能 会 责怪 软件 工程 师 ， 而 软件 工程 师 在 程序 崩溃 时 责怪 硬件 工程 
师 ， 从 管理 角度 来 看 这 将 影响 开发 效率 。 
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需要 同时 兼顾 软件 和 硬件 。 通 常 软件 实现 更 加 灵活 ， 容 易 进 行 调试 、 更 改 和 添加 功能 ， 硬 件 
实现 则 具有 高 性 能 和 低 功 耗 的 特 所 [363] 
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图 7-29 一 个 包含 CPU 和 FPGA 的 嵌入 式 系统 的 设计 过 程 ， 包 括 分 析 任 务 需求 和 根据 
需求 对 两 个 部 分 进行 任务 分 配 ，CPU 和 FPGA 之 间 通 过 接口 连接 

有 些 任务 适合 FPGA 实现 〈 例 如 ， 位 操作 、 串 行 或 并 行 处 理 ) ， 有 些 任务 适合 CPU 上 的 高 
级 软件 实现 〈 例 如 ， 控 制 软件 、 高 级 协议 、 文 本 操作 等 ) 。 了 解 FPGA 的 大 小 以 及 处 理 器 中 的 
MIPS/ 内 存 的 约束 将 有 助 于 设计 人 员 更 好 地 进行 分 区 。 除 此 之 外 还 有 一 些 其 他 的 问题 需要 权衡 ， 
例如 ， 编 程 任务 的 分 配 、 aa 

人 连接 将 同时 受到 带宽 和 延迟 的 限制 ， 
由 于 只 能 支持 一 定量 的 数据 流 ， ee 要 考虑 的 重要 因 
素 )。 此 外 ， 通 常 一 个 设备 (通常 是 CPU) 作为 主 设备 ， 男 一 个 设备 是 从 设备 ， 消 息 和 数据 是 由 
主 设备 发 出 ， 两 个 方向 的 消息 延迟 可 能 会 有 所 不 同 ， So a 
不 是 同步 的 ， 因 此 两 个 设备 端的 流 式 数 据 可 能 都 需要 缓冲 ， 进 一 步 增加 了 数据 传输 延 

当 FPGA 包含 软 核 处 理 器 时 情况 会 更 加 复杂 ，:j th De pr te 
务 ， 还 是 在 作为 逻辑 功能 /状态 机 的 FPGA 中 或 在 由 核心 处 理 器 执行 的 FPCA 中 实现 任务 。 

经 过 重重 困难 ， 最 终 分 区 设计 会 达成 一 致 ， 如 图 7-30 所 示 。 接 下 来 将 制定 系统 规范 ( 包 
括 接口 规范 ) ， 最 后 分 别 交 给 软件 团队 和 硬件 团队 进行 具体 系统 的 实施 。 





图 7-30 把 任务 分 配给 CPU 或 FPGA 是 戏 入 式 系 统 设 计 中 软件 硬件 分 区 的 一 个 步 又 
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集成 是 指 将 硬件 和 软件 设计 融合 在 一 起 的 过 程 ， 两 个 团队 通过 协调 和 交流 解决 系统 中 存在 
的 问题 。 

通常 即使 最 后 系统 正常 工作 ， 由 于 设计 过 程 中 存在 大 量 的 主观 判断 ， 结 果 往 往 不 是 最 佳 的 
解决 方案 。 

为 了 解决 系统 中 硬件 和 软件 设计 的 这 些 问题 ， 出 现 了 硬件 软件 协同 设计 。 为 了 简化 设计 过 
程 〈 节 省 时 间 、 成 本 ， 减 少 错误 ) ， 协 同 设计 通过 CAD 中 的 工具 实现 ， 对 硬件 和 软件 的 任务 划 
分 进行 优化 并 简化 集成 过 程 。 

假设 我 们 的 目标 是 设计 一 个 混合 FPFGA/CPU 系统 ， 硬 件 软件 协同 设计 包括 以 下 步 又: 

1) 建 模 一 一 以 机 器 可 读 的 方式 为 系统 创建 一 些 规范 。 这 可 能 是 一 种 形式 化 的 语言 ， 通 常 
是 由 C 或 MATLAB 等 正式 语言 编写 的 简单 程序 ， 通 过 模拟 系统 的 输入 输出 来 验证 新 系统 是 否 
正常 工作 。 

2) 分 区 一 一 如 前 文 所 述 ， 最 好 以 人 工 辅 助 的 方式 对 系统 进行 描述 ， 将 系统 分 成 不 同 的 模 
块 ， 但 可 能 会 出 现 一 些 困 难 ， 需 要 对 原始 模型 进行 轻微 的 修改 。 

3) 协同 合成 一 一 使 用 CAD 工具 创建 三 个 部 分 的 模型 : FPGA 程序 、C 程序 以 及 两 者 之 间 
的 接口 。FPGA 程序 在 FPGA 设计 工具 中 合成 ，C 程序 在 编译 后 加 载 到 处 理 器 的 仿真 器 中 ， 两 
者 之 间 的 接口 通常 是 基于 文件 的 。 

4) 协同 仿真 一 一 在 设计 工具 中 将 这 三 个 部 分 同时 运行 。 理 想 情 况 下 是 实时 运行 的 ， 但 通 
常 比 真实 硬件 慢 很 多 ， 实 际 硬件 实现 中 精确 度 是 比特 级 的 。 | 

5) 验证 一 一 将 系统 与 原始 模型 进行 协同 仿真 ， 经 比较 后 对 准确 性 进行 判断 。 

在 这 个 过 程 中 可 能 会 有 多 次 迁 代 : 当 发 现 错误 (或 更 好 的 优化 策略 ) 时 ， 将 对 分 区 和 设 
计 进 行 细微 的 调整 。 图 7-31 显示 了 这 些 阶段 的 流程 图 ,在 图 7-31 中 ,通过 设计 过 程 中 每 个 阶 
段 的 验证 过 程 ， 可 以 清楚 地 看 出 模型 的 重要 性 。 








图 7-31 按 开发 顺序 展示 的 硬件 软件 协同 设计 过 程 ， 每 个 步骤 都 
需要 进行 验证 ， 并 在 检测 到 错误 时 迭代 回 先前 的 步骤 
事实 上 ， 所 有 的 东西 都 是 模拟 的 : 硬件 〈 通 常 是 FPCA) 、 软 件 和 它们 之 间 的 接口 可 以 通过 设 
计 工 具 进 行 开 发 ， 然 后 在 模拟 中 进行 全 面 测试 ， 以 便 尽 快 发 现 并 解决 问题 。 当 系统 模型 运行 无 误 
后 ,将 在 硬件 中 进行 构建 和 测试 。 在 这 一 点 上 ， 我 们 希望 硬件 可 以 完美 地 工作 ,减轻 软 硬 件 开发 
人 员 的 负担 。 
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7. 16 商业 处 理 器 内 核 


在 本 章 前 面 的 部 分 ， 我 们 介绍 了 很 多 可 以 在 FPGA 内 使 用 的 处 理 器 内 核 ， 除 此 之 外 也 可 以 
使 用 来 自 供应 商 的 商业 处 理 器 内 核 ， 尤 其 是 FPCA 制造 商 ， 这 些 产品 在 编写 本 书 时 已 经 存在 ， 
如 下 所 示 : 
e Altera Nios I 是 针对 Altera FPGA 进行 优化 的 32 位 RISC 处 理 器 。 它 建立 在 原始 Nios 内 
核 的 基础 上 ， 并 在 许多 方面 被 看 作 针 对 广泛 使 用 的 ARM 处 理 器 的 设计 。Nios I 可 以 在 
700 个 逻辑 元 件 (LE) 以 上 的 多 种 配置 中 执行 单 指令 集 ， 它 有 着 非常 强大 的 配置 ， 包 
括 6 级 管道 、 独 立 的 数据 和 指令 缓存 、 专 用 的 乘法 器 、 分 支 预测 器 ， 甚 至 配 有 可 选 的 
除法 器 和 MMU ， 非 常 强大 。 从 艇 入 式 计算 机 架构 师 的 角度 来 看 ， 内 核 允 许多 达 256 条 
定制 指令 访问 专用 的 定制 逻辑 块 ， 并 在 管道 中 配 有 专用 的 硬件 加 速 。Nios II 支持 包括 
和 能 人 式 Linux 在 内 的 多 种 操作 系统 。 
e Xilinx MicroBlaze 也 是 一 款 可 在 Xilinx 器 件 中 使 用 的 32 位 RISC 处 理 器 ， 它 可 以 有 3 
级 或 5 级 流水 线 ， 并 且 在 总 线 、 功 能 单元 及 MMU 等 方面 有 多 个 可 配置 选项 。 
MicroBlaze 具有 可 配置 缓存 大 小 的 Harvard 架构 ， 可 进行 硬件 除法 和 快速 乘法 ， 并 兼 
容 IEEE754 的 FPU。 和 Nios I 一样，MicroBlaze 也 支持 包括 椒 和 信 式 Linux 在 内 的 多 个 
操作 系统 。 
Actel 加 入 稍 晚 ， 但 最 终 与 ARM 达成 了 一 项 重要 协议 ， 推 出 了 一 款 基 于 ARM7 的 软 核 ， 
它 为 ARM7 提供 了 广泛 的 支持 和 现 有 程序 库 ，Actel 比 Altera 或 Xilinx 小 得 多 ， 且 针对 
FPGA 市 场 的 不 同 部 分 。 因 此 ， 虽 然 ARM 在 现成 的 微 处 理 器 中 是 明显 的 赢家 , 但 只 有 
时 间 才 能 证 明 这 是 否 也 能 在 FPCA 的 软 核 市 场 中 获得 成 功 。 
Lattice 是 这 个 市 场 上 的 最 终 竞 争 者 ， 它 也 发 布 了 一 款 32 位 软 核 RISC 处 理 器 。Lattice- 
Mico32 在 一 个 Lattice FPGA 中 使 用 不 到 2000 个 查找 表 (LUT) ， 尽 管 不 如 Xilinx 和 
Altera 产 品 的 可 配置 性 高 ， 也 不 如 它们 那么 强大 ， 但 是 它 体积 小 、 速 度 快 ， 且 各 种 外 围 
设备 (如 UART 和 总 线 接口 ) 都 是 可 配置 的 。 除 此 之 外 ， 它 是 完全 开放 的 ， 可 以 随时 
使 用 和 修改 ， 在 使 用 和 销售 时 也 不 需要 授权 。 
除了 这 些 内 核 之 外 ， 还 有 一 些 专门 从 事 IP - 内 核 市 场 的 公司 ， 它 们 销售 用 于 任何 FPCA 的 
内 核 。 甚 至 ARM 也 发 布 了 一 款 小 型 软 核 ARM Cortex 器 件 。 这 个 领域 十 分 活跃 ， 且 对 艇 人 式 系 
统 的 重要 性 日 益 增加 。 
最 后 需要 注意 ， 这 些 内 核 不 是 孤立 存在 的 ， 它 们 需要 与 FFGA、 外 部 总 线 、 外 设 (如 内 
存 ) 、 时 钟 信号 及 其 他 结合 才能 运行 ， 同 时 它们 还 需要 程序 。 
软件 开发 是 确保 软 核 处理 器 正确 运行 不 可 或 缺 的 部 分 ， 因 此 需要 解决 工具 链 (用 于 开发 软 
件 ) 是 否 可 用 、 操 作 系 统 是 否 兼容 该 处 理 器 以 及 调试 工具 类 型 可 用 性 等 重要 问题 。 
标准 的 嵌入 式 工 具 链 (例如 CNU 工具 链 ) 包含 C (和 C++) 编译 器 、 汇 编 器 和 链接 器 
(例如 gcec) ， 通 常 需 要 库 管理 工具 、 目 标 文 件 工具 、 剥 离 器 (从 目标 文件 中 删除 调试 注释 以 减 
小 其 大 小 ) 以 及 分 析 工 具 等 。 调 试 器 (如 GDB) 具有 执行 、 单 步 、 断 点 、 监 视点 和 监视 运行 
程序 等 功能 ， 因 此 非常 推荐 使 用 调试 器 进行 调试 。GNU 工具 链 还 包含 对 运行 程序 进行 监测 的 
软件 (例如 ， 计 算 每 个 函数 的 CPU 耗 时 、 跟 踪 程 序 和 记录 执行 次 数 ) 。 
在 许多 开发 中 经 常 需要 用 到 操作 系统 ， 尤 其 是 实时 操作 系统 (RTOS) ， 但 是 将 操作 系统 写 
和 人 或 移植 到 新 处 理 器 时 难度 较 高 ， 这 是 人 们 选择 已 经 被 优秀 嵌 人 式 操作 系统 ， 如 Linux 支持 的 
内 核 的 主要 依据 之 一 。 尽 管 如 此 ， 当 程序 量 较 小 时 还 是 需要 自 定义 设计 一 个 软 核 ， 比 如 手工 编 
写 的 汇编 语言 。 
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7.17 小 结 


本 章 讨 论 了 计算 领域 的 一 些 实际 问题 ， 比 如 存储 技术 、 片 上 外 设 、 时 钟 策略 和 复位 信号 部 
署 等 。 峙 入 式 系统 通常 会 受到 内 存 短缺 的 困扰 ， 这 可 以 通过 使 用 内 存 分 页 和 重 又 技术 缓解 。 我 
们 还 以 广泛 使 用 的 嵌入 式 Linux 操作 系统 为 例 分 析 了 典型 嵌入 式 系统 的 存储 结构 。 

看 门 狗 定 时 器 是 一 种 确保 实时 嵌入 式 系统 可 靠 性 的 有 效 手 段 。 针 对 可 靠 性 问题 ， 我 们 还 讨 
论 了 错误 检测 和 纠正 。 

因为 CPU 速度 越 来 越 快 且 越 来 越 复 杂 ， 所 以 增加 了 制造 和 开发 难度 ， 因 此 需要 测试 和 验 
证 。 该 问题 我 们 从 三 个 方面 进行 了 讨论 : IC 制造 、 系 统制 造 和 运行 过 程 。 

最 后 讨论 了 逆向 工程 相关 问题 。 这 是 一 个 与 舱 入 式 系 统 休 威 相关 的 问题 ， 尤 其 是 那些 消费 
类 设备 。 我 们 讨论 了 恶意 逆向 工程 的 执行 过 程 ， 并 介绍 了 几 种 防范 逆向 工程 的 方法 。 

我 们 研究 了 使 用 商业 CPU、 片 上 系统 和 软 核定 制 解决 方案 之 间 的 权衡 。 虽 然 ARM 等 CPU 
因 其 在 效率 、 灵 活性 和 易 用 性 方面 的 特点 在 嵌入 式 系统 中 占据 了 主导 地 位 ， 但 在 某 些 情况 下 定 
制 软 核 有 着 独特 优势 。 


思考 题 
7.1 确定 在 戏 和 人 式 系统 中 可 以 使 用 片上 系统 (SoC) 处 理 器 的 4 个 因素 。 
7.2 根据 下 列 所 需 功 能 ， 列 出 在 微 控 制 器 上 实现 可 编程 VO 引 脚 的 最 少 控制 寄存 器 设置 ; 
(1) 可 以 配置 通用 输入 /输出 〈GPIO) ， 或 者 一 个 内 置 的 外 部 设备 的 专用 输出 〈 如 UART) 。 
(2) 当 在 GPIO 模式 时 ， 可 以 配置 为 输入 或 是 输出 。 
(3) 每 个 引 脚 都 可 以 单独 读 取 和 写 入 。 
7.3 你 是 否 会 期 望 一 个 单 芯片 微 控制 器 或 四 核 高 速 服务 器 处 理 器 在 内 存 方 面 投入 更 大 比例 的 硅 片面 积 。 
通过 在 这 两 种 类 型 机 器 上 的 应 用 来 证 明 你 的 回答 。 
7.4 列举 几 种 在 过 去 二 三 十 年 中 ， 半 导体 设计 者 为 减少 CPU 传输 延迟 而 采用 的 方法 。 
7.5 ”对 于 计算 机 系统 的 时 钟 策略 (或 时 钟 本 身 ) 进行 怎样 的 变化 可 减少 系统 产生 的 电磁 干扰 (EMI)? 
7.6 在 靠近 CPU 的 电源 引 脚 处 放置 什么 样 的 外 部 器 件 可 以 减少 EMI 的 产生 ， 为 什么 ? 
7.7 在 下 面 列 出 的 应 用 中 ， 指 明 最 合适 的 存储 技术 。 
a MP3 播放 器 需要 以 350Kbit/s 的 速率 从 8GB 存储 器 中 访问 音频 数据 。 即 使 电源 关闭 ， 数 据 (你 的 
歌曲 ) 也 应 该 保留 在 存储 器 中 。 
. 一 个 简单 的 很 小 的 嵌入 式 系统 的 程序 存储 器 ， 只 执行 一 个 任务 。 制 造 商会 制造 几 百 万 个 这 种 器 
件 ， 不 需要 提供 可 再 次 编程 功能 。 
. 在 个 人 数字 助理 中 ，256MB 系统 存储 内 置 于 ARM9 嵌 人 式 系统 中 ,在 PDA 上 运行 先进 的 让 入 式 
操作 系统 ， 如 峙 入 式 Linux。 
. 在 上 述 系 统 中 已 包含 一 个 16MB 的 非 易 失 程 序 存储 器 ， 用 于 存放 操作 系统 的 例 程 ， 且 程序 直接 从 
该 存储 器 中 执行 。 
. 在 一 个 小 的 嵌入 式 系 统 中 ，4KB 运行 时 存储 连接 到 一 个 中 等 大 小 的 微 控制 器 。 
可 选 存 储 技术 (一 个 应 用 选择 一 种 存储 技术 ) 如 下 : 
。 串 行 闪存 
并 行 闪存 
SDRAM 
SRAM 
e。 RAM 
7.8 说 出 7 个 在 嵌入 式 系统 中 引导 加 载 程序 〈 例 如 u- Boot) 的 常用 功能 。 
7.9 一 个 BGA 封装 的 典型 府 入 式 系统 CPU 安装 在 原型 嵌入 式 系统 的 PCB 上 。 设 计 师 怀疑 有 焊接 故障 致 
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使 系统 不 能 正确 运行 。 列 出 两 种 识别 潜在 问题 的 方法 。 

一 个 字 节 0xF3 通过 两 个 半 字 节 的 方式 在 有 噪声 的 无 线 信道 中 传输 ， 每 半 字 节 都 使 用 汉 明 (7，4) 码 
进行 编码 。 请 参阅 框 7.7 的 方法 ， 以 十 六 进 制 的 形式 写 出 这 两 个 7 位 编码 。 

重复 问题 7. 10 的 汉 明 编码 问题 ， 这 次 使 用 框 7. 8 的 方法 传输 字 节 0xB7。 

为 什么 必须 在 能 人 式 系 统 中 加 入 逆向 工程 保护 ， 但 会 稍微 减少 制造 商 的 利润 ”请 确定 3 个 主要 的 
原因 。 

在 嵌入 式 系统 中 ， 为 了 确定 以 下 几 个 方面 ， 逆 向 工程 团队 如 何 利 用 JTAG 到 CPU 的 连接 ? 

a. 识别 CPU。 

b. 电路 连接 和 系统 原理 图 。 

c. 安装 在 系统 中 的 非 易 失 性 存储 器 (闪存 ) 的 内 容 。 

为 什么 这 么 多 的 SoC 微 处 理 器 使 用 32. 768kHz 晶振 ? 

什么 是 时 钟 拌 动 ? 它 如 何 影响 处 理 器 的 最 快 时 钟 速度 ? 

如 果 将 字 节 0xA7 编程 到 并 行 闪 存 的 一 个 位 置 ， 其 后 又 将 字 节 0x9A 编程 到 同样 的 位 置 (在 两 次 操 
作 之 间 没 有 擦 除 ) ， 之 后 闪存 的 这 个 位 置 包含 的 是 什么 值 ? 

EPROM 存储 设备 有 一 个 小 玻璃 窗口 ， 它 可 以 用 来 接收 紫外 线 以 控 除 存储 器 阵列 。 闪 存 (以 及 EE- 
PROM) 存储 器 内 容 电 可 擦 除 。 说 明 闪存 技术 与 EPROM 相 比 的 两 个 优势 。 

想象 一 下 ， 你 在 领导 一 个 小 型 设计 团队 设计 新 的 伐 人 式 产 品 : 硬件 已 经 准备 好 了 ， 软件 工程 师 基 
本 完成 了 系统 代码 。 系 统 中 有 大 量 的 串 行内 存 ， 但 是 只 有 少量 的 SRAM 可 用 。 上 距离 推出 产品 的 时 
间 只 有 几 个 星期 了 ， 软 件 开 发 团队 发 现 无 法 在 SRAM 中 运行 代码 ， 也 没有 办 法 减 小 代码 规模 。 在 
不 改变 硬件 的 情况 下 ， 提 出 一 种 存储 解决 方案 来 解决 该 问题 。 

一 个 JTAG 扫描 链 可 能 有 几 百 位 长 。 这 条 串 行 链 可 以 向 CPU 的 扫描 路 径 中 输入 以 改变 其 行为 ， 也 
可 以 从 CPU 中 输出 以 读 取 其 状态 。 举 例 说 明 一 些 位 的 含义 〈 即 它们 能 改变 什么 行为 ， 它 们 能 确定 
什么 状态 )? 

如 何 利用 三 重 模 块 元 余 确 定 正确 的 计算 输出 ? 假设 3 个 相同 的 块 在 一 个 故障 系统 各 自 的 输出 为 
0xB9、0x33 和 0x2B， 基 于 此 阐述 你 的 答案 。 如 果 这 些 输出 接 到 一 个 按 多 数位 选取 的 选举 器 上 ， 系 
统 的 最 后 输出 字 节 应 该 是 什么 ? 
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计算 机 的 本 质 是 一 种 处 理 和 运算 大 量 数值 的 单元 。“ 处理” 这 个 词 可 以 用 来 概括 计算 机 做 
的 每 一 件 工作 ， 包 括 接收 操作 数 、 移 动 操 作 数 和 改变 操作 数 。 这 些 操作 数 可 能 代表 着 一 幅 图 片 
中 不 同 颜色 的 像素 ， 一 盘 音像 磁带 中 的 音频 采样 ， 或 是 气象 图 中 的 风速 、 股 票 的 价格 、 因 特 网 
协议 的 地 址 、 网 页 上 的 字符 、 电 子 邮件 中 的 文本 ， 或 是 数字 世界 中 的 其 他 量化 信息 。 编 程 是 指 
通过 这 些 数值 “命令 计算 机 去 做 你 想 让 它 做 的 ”。 

之 前 已 经 详细 地 介绍 过 计算 机 的 工作 原理 ,认识 了 内 存 映 射 、 控 制 单元 、 算 术 人 逻辑 单元 ， 
还 介绍 了 按 下 电源 后 的 计算 机 是 怎样 进行 引导 的 。 然 而 ， 现 在 很 多 人 对 计算 机 的 使 用 经 验 和 认 
识 与 本 书 中 介绍 过 的 差异 很 大 。 当 这 些 人 打开 他 们 的 笔记 本 电脑 或 者 是 智能 手机 后 ， 呈 现 的 图 
形 用 户 界 面 (GUI) 可 以 运行 浏览 器 、 听 音乐 、 通 过 Skype 进行 社交 、 更 新 电子 表格 ,或 是 编 
辑 图片 。 

在 第 9 章 中 ， 我 们 将 会 认识 到 上 述 很 多 功能 得 以 实现 都 要 归功 于 操作 系统 。 引 导 是 启动 
CPU 并 让 其 运行 软件 的 过 程 ， 这 个 内 容 在 7. 8. 1 节 中 有 过 简要 的 叙述 ,: 在 9.5 节 将 进行 更 加 彻 
底 的 讨论 。 处 理 的 过 程 可 以 被 简 述 为 : 上 电 后 ， 计 算 机 执行 内 存 中 特定 地 址 中 的 软件 一 一 在 
ARM 处 理 器 中 ， 引 导向 量 的 地 址 通常 是 0x0000 0000 一 一 并 且 这 个 软件 通常 是 一 个 引导 加 载 程 
序 (bootloader。 对 于 更 复杂 的 计算 机 ， 这 个 软件 是 BIOS) 。 然 后 ， 一 连 串 的 程序 便 开 始 运行 ， 
最 终 ， 计 算 机 中 的 操作 系统 得 以 启动 。 在 很 多 设备 上 ，0S 启动 后 会 运行 窗口 管理 器 或 者 是 
GUI。 在 这 两 者 被 运行 后 ， 用 户 便 可 以 选择 去 启动 一 些 用 户 程序 一 一 例如 ， 通 过 点 击 程序 的 图 
标 ， 或 是 通过 命令 窗口 输入 特定 的 程序 名 称 ， 或 是 仅仅 输入 一 条 命令 。 

在 第 9 章 ， 我 们 将 会 看 到 操作 系统 并 不 是 一 台 计 算 机 所 必需 的 〈 很 多 小 型 的 谋 人 式 系统 并 
没有 任何 操作 系统 ) 。 这 些 计算 机 上 电 后 会 直接 运行 嵌入 式 开 发 者 所 开发 的 程序 ， 通 常 这 样 的 
单一 程序 便 可 以 处 理 所 有 的 任务 。 为 使 程序 正常 运行 ， 能 人 式 开 发 者 必须 确保 所 开发 的 程序 的 
起 始 地 址 位 于 启动 向 量 中 2 。 

在 这 一 章 中 ， 首 先 关注 程序 是 如 何 写 人 的 ， 从 程序 是 怎样 运行 开始 ， 探 究 在 这 个 过 程 中 计 
算 机 内 部 发 生 了 什么 。 

在 这 里 ， 我 们 不 关注 程序 设计 中 的 细节 ， 如 实现 方法 、 编 程 过 程 、 程 序 结构 、 调 试 、 验 证 
以 及 确认 ， 这些 属于 软件 工程 或 软件 开发 教科 书 中 的 主题 。 我 们 将 关注 的 是 编译 型 和 解释 型 语 
言 ， 以 及 UNIX 程序 的 设计 模型 和 强大 的 UNIX shell。 


8. 1 “运行 一 个 程序 
一 个 编译 和 链接 后 的 可 执行 文件 是 一 段 随时 可 以 运行 的 代码 。 在 拥有 0S 的 计算 机 上 ， 可 
执行 程序 通常 驻 留 在 像 硬盘 这 种 稳定 的 存储 介质 上 。 当 可 执行 程序 需要 被 运行 时 ， 例 如 当 用 户 


点 击 了 代表 该 程序 的 图 标 ， 或 者 是 通过 命令 行 输入 了 该 程序 的 名 称 ， 可 执行 的 代码 块 将 会 被 移 
动 到 RAM， 并 在 其 中 运行 。 


加 ”实际 上 这 个 过 程 可 能 会 比 上 文 叙述 的 更 加 复杂 : 用 户 的 代码 需要 满足 可 重 定位 的 条 件 ， 并 且 不 能 依赖 于 任 
何 操作 系统 的 功能 或 者 是 库 文件 ， 因 此 不 同 于 由 操作 系统 启动 的 程序 。 





由 于 髋 入 式 系统 没有 0S， 此 时 代码 块 通常 会 在 引导 过 程 中 被 移动 到 RAM 中 ， 然 后 被 引导 
加 载 程序 运行 。 然 而 ， 在 最 小 、 最 节约 空间 的 舱 入 式 系 统 中 ,代码 有 时 可 以 存储 在 闪存 中 ， 并 
且 可 以 直接 在 闪存 中 执行 ( 称 为 “即刻 执行 ")。 事 实 上 ， 这 正 是 上 电 后 第 一 段 引 导 加 载 程序 
的 本 质 。 当 CPU 上 电 后 ， 一 小 块 位 于 非 易 失 性 存储 器 (在 引导 向 量 中 ) 的 代码 被 执行 。 第 一 
段 引 导 加 载 程序 要 做 的 第 一 件 事情 通常 是 从 非 易 失 性 存储 器 中 将 第 二 段 引 导 加 载 程序 复制 到 
RAM 中 ， 然 后 执行 它 。 


8. 1.1 执行 的 含义 


从 第 3 章 的 讨论 中 我 们 已 经 知道 CPU 怎样 执行 代码 : CPU 会 在 当前 的 程序 计数 器 (PC) 
地 址 中 获取 位 于 存储 器 中 的 机 器 码 指令 ， 随 之 按照 这 些 指令 执行 相应 的 操作 〈 即 CPU 执行 指 
令 ) 。 除 非 当前 的 指令 有 其 他 特别 的 声明 ， 和 否则 CPU 将 会 自 增 PC 以 指向 存储 器 中 的 下 一 条 指 
令 。 接 下 来 ，CPU 获取 到 下 一 条 指令 ， 并 且 执 行 它 。 计 算 机 程序 就 是 这 样 被 设计 成 一 步 一 步 地 
执行 的 。 另 外 ， 一 些 指 令 会 使 PC 的 状态 改变 一 一 包括 分 支 指令 、 调 用 指令 或 者 是 跳 转 指 令 
(这 些 指令 在 不 同 的 处 理 器 上 有 不 同 的 命名 ) 。 而 它们 所 做 的 是 给 PC 设置 一 些 不 同 的 值 ， 使 得 
CPU 不 会 去 执行 “获取 下 一 条 指令 ”这 个 默认 操作 。 

图 8-1 展示 了 这 些 指令 是 如 何 工作 ， 以 及 它们 是 如 何 让 我 们 可 以 在 计算 机 上 执行 不 同 的 程 
序 的 ， 下 面 解 释 这 张 图 中 包含 的 众多 信息 。 虽 然 与 通常 表示 ARM 内 存 映 射 的 方式 不 同 ， 但 是 
该 图 从 本 质 上 展示 了 ARM 内 存 映 射 的 一 部 分 。 在 图 中 ， 地 址 0 在 顶端 (通常 的 映射 图 中 ,地 
址 0 是 在 底 端 ) 。 为 清晰 起 见 ， 图 中 使 用 了 ARM 指令 来 说 明 ， 而 实际 上 许多 现代 的 ARM 处 理 
器 的 行为 与 图 中 相 比 略 有 差异 。 图 中 展示 了 一 块 范围 为 0x0000 0000 至 0x0002 012c 的 存储 空间 
(为 了 简明 ， 我 们 跳 过 了 中 间 的 一 大 部 分 ) ， 左 边 表示 的 是 地 址 ， 右 边 表示 的 是 32 位 的 指令 。F 
于 每 个 指令 的 大 小 都 是 32 位 ， 因 此 内 存 中 的 地 址 以 32 位 递增 ， 即 0x0000 0000 、0x0000 0004、 
0x0000 0008 ， 然 后 是 0x0000 000c。 

在 图 8-1 所 示 的 汇编 语言 部 分 中 ， 第 一 列 为 标签 ， 第 二 列 为 指令 ， 最 后 一 列 是 一 些 说 明和 
注释 。 注 释 是 以 “//” 开 头 ， 到 该 行 结尾 的 解释 性 文本 。 该 图 没有 提 及 它 是 什么 类 型 的 存储 
器 ,但 由 于 它 覆 盖 了 引导 向 量 地 址 ， 因 此 很 可 能 是 非 易 失 性 存储 器 或 某 种 闪存 。 

8.1.1.1 引导 

当 CPU 首次 上 电 时 ,程序 计数 器 由 硬件 自动 复位 为 0。 通 常 ，CPU 从 PC 指向 的 地 址 获取 其 
第 一 条 指令 。 如 图 8-1 中 的 映射 所 示 ， 我 们 可 以 得 知 地 址 0x0000 0000 处 的 指令 是 B_start， 这 意味 
着 它 是 一 条 无 条 件 分 支 并 指向 标签 _start。 由 注释 可 知 ， 因 为 标签 _start 位 于 地 址 0x0000 0020， 
所 以 该 指令 实际 上 是 B 0x0000 0020。 这 将 导致 PC 的 值 更 改 为 0x0000 0020。 

8. 1. 1.2 运行 

CPU 获取 PC 指向 的 指令 ， 即 本 例 中 的 ADD R0,R0,R1， 意 思 是 两 个 寄存 器 相 加 (在 本 例 
中 ， 只 需要 检查 分 支 指令 ， 即 B，BEQ 和 BGT)。 一旦 执行 了 该 指令 ，PC 将 自动 从 0x0000 0020 
递增 到 0x0000 0024 并 准备 好 获取 下 一 条 指令 (减法 指令 ，SUBS ) 。 执 行 此 操作 后 ， 程 序 计 数 
器 将 递增 到 0x0000 0028 并 获取 BEQ 指令 。 这 是 一 个 条 件 分 支 ， 地 址 为 0x0002 0100。 

由 于 它 以 EQ 或 “如 果 等 于 零 的 分 支 ” 为 条 件 ， 所 以 只 有 在 先前 的 条 件 代码 指令 运行 后 得 
到 的 结果 为 零 时 ， 才 会 进入 该 分 支 (这 里 不 需要 检查 条 件 代 码 ， 整 体 如 框 3.3 所 示 ) 。 

如 果 条 件 代 码 寄存 器 (CCR) 显示 其 当前 的 状态 不 满足 条 件 ， 则 PC 将 正常 递增 并 且 取 出 
下 一 条 指令 ， 即 MOV 指令 。 但 是 ， 如 果 CCR 显示 其 当前 状态 满足 条 件 〈 即 CPU 运行 SUBS 指 
令 后 的 结果 为 零 )， 则 CPU 将 采用 分 支 中 的 指令 。 

8. 1.1.3 进入 分 支 

进入 分 支 意味 着 PC 将 被 设置 为 分 支 指令 中 的 指定 值 。 在 本 例 中 ， 它 意味 着 PC = 0x0002 0100 
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(应 该 提醒 读者 ARM 处 理 器 使 用 相对 分 支 ， 因 此 它 实 际 上 并 没有 将 PC 设置 为 一 个 32 位 的 值 ， 
仅仅 是 向 PC 添加 一 个 偏 移 量 以 使 得 它 获取 正确 的 位 置 一 一 这 在 3. 3.2.3 节 中 已 经 介绍 了 ) 。 一 
且 设 置 了 PC， 一切 都 将 按照 以 下 方式 正常 进行 : CPU 取出 PC 指向 的 任何 指令 ， 然 后 执行 该 指 
令 。 至 此 ，CPU 得 以 执行 位 于 内 存 中 完全 无 关 的 不 同 部 分 中 的 代码 。 


下 CPU 内 存 映射 





图 8-1 ARM 处 理 器 首次 通电 时 如 何 运行 引导 代码 以 及 如 何 执行 内 存 中 其 他 位 置 的 代码 


8. 1.1.4 运行 程序 

现在 我 们 来 了 解 如 何 运行 一 个 新 程序 : 
1) 将 所 需 程序 加 载 到 内 存 中 的 某 个 位 置 。 
2) 将 PC 设置 为 程序 的 起 始 地 址 。 


接 下 来 获取 并 执行 的 指令 将 是 新 程序 的 第 一 条 指令 ， 然 后 PC 将 逐 行 运行 新 的 程序 代码 ， 
直到 遇 到 另 一 个 分 支 指令 为 止 。 





8.1.1.5 程序 结束 
程序 结束 时 ， 只 需 将 PC 重 置 为 该 程序 之 外 的 其 他 值 即 可 。 在 图 8-1 中 ， 地 址 0x0002 010e 
处 的 指令 结束 了 单独 的 代码 块 。 这 是 另 一 个 条 件 分 支 。 如 果 条 件 满 足 ， 分 支 将 PC“ 送 ” 回 地 
址 0x0000 002c， 这 恰好 是 跳 转 执行 该 代码 块 指令 的 下 一 条 指令 。 
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8.1.2 注意 事项 


以 上 描述 略微 简化 了 实际 过 程 ， 仍 值得 注意 的 是 : 

。 在 执行 另 一 个 程序 之 前 ， 调 用 进程 需要 保存 现 有 状态 ， 然 后 在 程序 终止 时 恢复 该 状态 ， 
否则 被 调用 的 程序 将 以 不 可 预测 的 方式 改变 寄存 器 和 机 器 的 状态 ， 可 能 会 对 调用 进程 
造成 严重 影响 。 保 存 的 状态 包括 存 有 指针 的 寄存 器 、 条 件 代 码 寄存 器 等 ， 这 些 都 需要 
先 存储 在 RAM 的 软件 堆栈 中 。 堆 栈 由 指针 定义 (在 ARM 中 它 是 堆栈 指针 SP， 即 
R13) ， 并 且 可 以 弹出 和 压 人 可 存储 的 寄存 器 ， 从 而 使 堆栈 内 存根 据 需要 增长 或 收缩 。 
因此 ， 在 调用 程序 之 前 ， 当 前 一 组 重要 寄存 器 的 内 容 通常 会 被 压 人 堆栈 。 当 该 程序 终 
止 并 且 控 制 传 回 〈 即 PC 跳 回 ) 到 调用 进程 时 ， 通 过 将 它们 从 堆栈 中 弹出 来 恢复 寄存 
器 内 容 。 

。 当 正 在 执行 的 程序 结束 时 ，PC 需要 跳 回 到 调用 进程 。 在 ARM 中 ， 这 可 以 通过 链接 寄 
存 器 LR 完成 ，LR 是 寄存 器 R14。 为 了 实现 这 个 功能 ， 我 们 使 用 “分 支 和 链接 ”指令 ， 
BL 代替“ 分支 ”指令 B。BL 指令 使 CPU 自动 复制 并 存储 返回 给 寄存 器 R14 的 地 址 及 
其 分 支 。 由 于 PC 在 每 次 取 指令 后 自动 递增 ， 因 此 当 执 行 BL 指令 时 ，CPU 已 经 计算 了 
返回 地 址 ( 即 PC +4) ， 这 个 返回 地 址 存储 在 R14 中 。 通 过 前 述 操作 ， 程 序 可 以 通过 将 
PC 更 改 为 R14 中 的 值 ， 从 而 返回 调用 它 的 地 方 ， 也 就 是 指令 MOV PC,R14 (可 以 写成 
MOV PC, LR， 或 用 指令 BX LR 实现 ) 。 

。 我 们 想 要 执行 的 一 些 程序 在 运行 之 前 需要 传递 参数 ， 该 参数 可 以 通过 两 种 方式 提供 给 
程序 。 第 一 种 是 在 调用 程序 之 前 将 信息 存储 在 寄存 器 中 ， 例 如 寄存 器 RO。 为 了 使 其 工 
作 ， 程 序 已 被 编写 为 假设 RO 包含 所 需 参 数 信息 ， 并 且 调 用 进程 事先 将 该 信息 放 和 人 R0。 
但 在 一 些 情况 下 ， 所 需 参 数 可 能 因为 数据 太 大 或 有 多 个 数据 项 而 不 适合 32 位 寄存 器 
R0， 在 这 种 情况 下 ， 调 用 进程 则 在 调用 程序 之 前 将 信息 放 人 一 个 内 存 块 ， 即 堆栈 。 为 
此 ， 程 序 将 编写 为 假设 堆栈 包含 所 需 信 息 。 按 照 这 一 思路 ， 你 会 发 现 需 要 两 个 不 同 的 
程序 ， 编 写 不 同 的 假设 。 为 了 防止 这 种 混淆 ， 大 多 数 计算 机 和 0S 都 使 用 某 些 标 准 。 这 
些 标准 明确 地 定义 了 调用 进程 需要 的 信息 ， 包 含 使 用 堆栈 或 是 寄存 器 、 调 用 和 返回 ， [375] 
同时 还 包含 各 个 程序 在 执行 时 必须 做 出 的 假设 。 

。 在 ARM 处 理 器 中 ，ARM 进程 调用 标准 (APCS) 已 经 被 使 用 了 很 长 时 间 ， 用 于 列 出 这 
些 假设 和 要 求 。° 

因为 确保 编译 代码 在 系统 中 正常 运行 并 符合 所 有 标准 是 编译 器 的 工作 ， 设 置 链接 寄存 器 、 

保存 状态 和 遵循 过 程 调 用 并 不 会 直接 影响 大 多 数 程序 员 。 唯 一 的 例外 是 当 程 序 员 在 没有 操作 系 
统 的 情况 下 编写 独立 代码 ， 例 如， 编写 引导 程序 ， 需 要 亲自 编写 要 从 程序 中 调用 的 汇编 语言 函 
数 ， 但 只 有 极 少 部 分 程序 员 会 承担 这 些 工 作 。 

从 现在 开始 ， 我 们 将 站 在 更 高 的 层次 去 考虑 如 何 编写 和 执行 程序 。 本 章 将 先 介绍 编译 器 的 


加 原始 APCS 的 功能 已 被 ARM 体系 结构 过 程 调用 标准 ( AAPCS) 取代 ， 该 标准 包含 ARM 和 Thumb 模式 标准 。 
这 是 一 个 称 为 应 用 程序 二 进 制 接口 (ABI) 的 新 规范 ， 它 规定 了 如 何 编写 代码 以 在 给 定 的 操作 系统 中 运行 。 
ABI 的 嵌入 式 版 本 ， 即 EABI， 用 于 没有 操作 系统 的 地 方 一 一 例如 引导 加 载 程序 或 没有 操作 系统 的 独立 嵌入 
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使 用 ， 然 后 简要 概述 解释 语言 。 


8.2 编写 程序 


在 可 编程 计算 的 早期 阶段 ,设计 和 构建 计算 机 的 工程 师 通 常 也 是 编写 程序 的 人 。 由 于 他 们 
对 硬件 有 深入 了 解 ， 因 此 程序 与 硬件 紧密 相关 。 那 些 早期 的 计算 机 通常 用 机 器 代码 编程 ， 后 来 
用 汇编 语言 编写 一 一 编写 起 来 更 方便 ， 更 易于 阅读 ， 并 包含 许多 可 以 协助 程序 员 的 方法 。 名 为 
汇编 器 的 程序 将 汇编 语言 程序 转换 为 机 器 代码 。 图 8-1 通过 汇编 语言 来 说 明 程序 如 何 运 行 以 及 
分 支 是 如 何 工 作 的 。 但 由 于 汇编 语言 是 机 器 代码 的 易 读 版 本 ， 实 际 存储 在 内 存 中 的 信息 将 是 等 
效 的 机 器 代码 。 因 此 ， 实 际 的 内 存 映 射 看 起 来 更 像 下 面 所 展示 的 ， 其 中 地 址 显示 在 左 侧 ，32 
位 指令 按 顺序 显示 在 右 侧 : 


Ox00000000 | Oxea000006 Oxeafffffe Oxeafffffe Oxeafffffe 

0x00000020 | Oxeafffffe Oxeafffffe 0xe51fff20 Oxeafffffe 

Ox00000040 | Oxe3a01981 Oxe3c11003 0xela0d001 0xeb0000bc 

0x00000060 | Oxe3a00981 0xe321f0d3 Oxela0d000 0xe2400010 

0x00000100 | Oxe321f0d2 Oxela0d000 Oxe2400010 ”0xe321f0d1 

随 着 计算 机 编程 变 得 越 来 越 专业 化 ， 并 最 终 成 为 一 门 学 科 〈 即 计算 机 科学 ) ， 编 程 方法 和 
语言 也 已 经 发 生 了 革命 性 的 变化 。 


8.2.1 编译 型 语言 

编译 型 语言 的 编写 方式 比 汇编 语言 更 易 读 ， 为 编写 者 提供 了 更 多 的 便利 ， 包 括 使 用 变量 名 
称 、 函 数 和 函数 名 称 、 指 针 、 算 术 、 循 环 、 条 件 以 及 许多 其 他 的 结构 和 功能 。 

以 C 语言 为 例 ， 在 现代 计算 机 上 ， 程 序 员 通常 使 用 编辑 器 将 程序 输入 计算 机 。 代 码 保存 为 
“.c” 文 件 ， 然 后 由 C 编译 器 〈 和 内 置 链接 器 ) 编译 以 生成 可 执行 文件 一 一 一 种 可 以 直接 执行 
的 程序 。 这 在 图 8-2 中 进行 了 说 明 ， 其 中 包含 基于 Linux 的 编译 和 使 用 gece (GNU 编译 器 集合 ) 
编译 器 在 命令 行 中 执行 名 为 prog. e 的 程序 的 示例 。 新 编写 的 程序 很 少 立即 编译 通过 而 不 报错 ， 
在 出 错 的 情况 下 编译 时 编译 器 会 指明 程序 中 的 语法 错误 ， 然 后 程序 员 可 以 在 重新 编译 程序 之 前 
纠正 这 些 错 误 。 





可 执行 代码 


(ipoge geproge Optog, /prog 





图 8-2 在 计算 机 上 输入 、 编 译 和 执行 C 语言 程序 的 图 示 。 在 典型 的 
Linux 下 执行 此 操作 的 相应 命令 显示 在 下 面 的 灰色 框 中 
8.2. 1.1 编译 和 链接 
实际 上 ， 上 面 讨论 的 是 编译 的 简化 流程 ， 并 没有 考虑 大 多 数 程 序 使 用 的 库 函 数 。 
库 包括 许多 程序 可 能 会 用 到 的 标准 函数 或 操作 ， 因 此 库 与 操作 系统 一 起 集中 提供 给 任何 需 
要 这 些 功能 的 程序 ( 而 不 是 在 这 些 程序 中 完全 重 写 这 些 库 )。 函数 集合 被 集成 到 动态 库 中 ,其 





中 包含 输入 和 输出 函数 、 数 学 函数 、 字 符 串 处 理 函 数 、 加 密 函 数 以 及 数 百 种 包含 其 他 功能 函数 
的 库 。 

图 8-3 给 出 了 一 个 编译 程序 的 更 完整 示例 ， 该 程序 包含 对 库 函 数 的 引用 (该 图 具有 比 图 8-2 
更 多 的 细节 , 但 是 功能 相同 ) 。 该 程序 是 基于 C 语言 的 ， 但 大 多 数 编译 语言 都 遵循 类 似 的 顺序 。 





图 8-3 使 用 了 库 函 数 的 C 语言 程序 图 示 ， 预 处 理 器 根据 库 的 头 文件 检查 这 些 函 数 并 确保 函数 调用 代码 
的 正确 ， 编 译 器 为 未 被 链接 的 机 器 代码 创建 目标 文件 ， 然 后 链接 器 会 将 此 代码 与 库 函 数 代 码 组 
合 在 一 起 (或 组 合 能 够 调用 正确 库 函 数 的 方法 ) 


图 8-3 展示 了 一 个 使 用 库 函 数 的 程序 一 一 来 自 标准 输入 /输出 库 (stdio) 的 printf() 函数 ， 
或 数学 〈math) 库 的 sqrt() 函数 。 为 了 在 代码 中 使 用 库 函 数 ， 程 序 员 需 要 在 其 程序 中 包含 对 相 
应 库 的 头 文件 的 引用 (例如 ，stdio.h 或 math. h)。 它 们 包含 的 函数 原型 就 像 大 纲 函 数 一 样 ， 有 
助 于 确保 程序 员 正 确 地 调用 函数 (具体 而 言 ， 即 函数 收 到 和 返回 正确 的 信息 类 型 ) 。 

如 果 程 序 员 已 在 其 代码 中 使 用 了 这 些 库 函数 ,那么 编译 的 第 一 步 是 C 预 处 理 器 根据 头 文件 
中 的 原型 检查 这 些 函 数 ， 在 匹配 的 情况 下 ,编译 器 会 创建 一 个 临时 文件 ， 用 其 他 代码 代替 所 编 
写 的 程序 中 的 库 函 数 代码 。 然 后 ， 编 译 器 将 更 改 的 程序 编译 成 目标 代码 (通常 是 以 “.o” 结 
尾 的 文件 ) 。 目 标 代码 是 一 个 可 以 被 执行 的 机 器 代码 块 ， 但 其 不 包含 内 存 引 用 (比如 分 支 、 跳 
转 和 调用 之 类 )。 为 使 代码 保持 灵活 状态 ,目标 代码 以 特殊 方式 编码 ， 直 到 它 被 链接 器 “ 链 
接 ”。 链 接 器 将 程序 代码 块 与 其 他 块 〈 包 括 库 中 的 代码 块 ) 以 及 内 存 映射 相 结 合 ， 该 内 存 映射 
会 指定 所 有 内 容 在 内 存 中 的 位 置 。 链 接 器 的 输出 是 可 执行 程序 ; 可 以 直接 运行 (执行 ) 的 
代码 。 

需要 注意 的 是 ， 库 通常 向 链接 器 提供 “. so” 文 件 或 共享 对 象 文件 。 一 般 来 说 ， 有 两 种 方 
法 可 以 链接 到 此 。 第 一 种 方法 是 将 库 函 数 关 联 的 库 对 象 代码 复制 到 程序 代码 中 ( 因此 被 编译 后 
的 程序 会 变 得 更 大 ) 。 第 二 种 方法 是 链接 一 小 段 代码 ， 程 序 在 执行 时 会 跳 转 到 共享 对 象 代码 块 
的 对 应 部 分 ， 并 从 那里 执行 函数 代码 ， 结 束 后 再 跳 回 到 程序 中 。 当 许多 程序 使 用 相同 的 代码 
时 ， 后 一 种 方法 的 空间 效率 要 高 得 多 ， 但 由 于 代码 跳 转 ， 所 以 运行 速度 略 慢 。 

假设 编写 需要 使 用 printf() 库 函 数 的 程序 。 包 含 printf() 函数 代码 的 库 的 大 小 可 能 超过 
1MB。 但 是 如 果 在 没有 共享 库 的 情况 下 使 用 这 个 函数 ， 对 于 1000 个 程序 则 需要 将 该 函数 复制 
1000 次 ， 并 将 其 链接 到 每 个 程序 ( 即 1000MB 的 相同 代码 ) 。 但 是 使 用 第 二 种 链接 方法 ， 仅 会 
有 一 小 段 代码 一 一 可 能 只 有 几 十 个 字 节 一 一 将 指示 每 个 程序 如 何在 运行 时 调用 共享 对 象 文 件 中 
的 printf() 函数 。 对 于 这 种 情况 ， 不 是 将 1MB 的 库 复 制 1000 次 ， 而 是 只 存在 一 个 库 ， 并 且 每 
个 程序 在 需要 时 都 会 调用 该 库 。 在 调用 代码 时 ， 即 使 重复 1000 次 调用 ， 程 序 的 大 小 可 能 只 有 
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0.1MB， 即 空间 效率 更 高 。 

现在 如 果 对 数 百 个 库 函 数 和 共享 对 象 库 都 采用 第 二 种 链接 方法 ， 共 享 对 象 库 效 率 高 的 原因 
就 显而易见 了 。 

我 们 之 前 所 简化 的 编译 和 链接 的 最 后 一 种 情况 是 多 个 程序 由 多 个 源 文件 组 成 的 情况 。 当 程 
序 很 大 ， 需 要 由 多 人 协作 处 理 时 ， 最 好 将 代码 拆 分 成 多 个 源 文件 ， 拆 分 的 方法 可 以 是 拆 分 成 可 
重用 和 不 可 重用 的 部 分 ， 或 按 主要 功能 拆 分 。 在 编译 期 间 ， 每 个 单独 的 “.e” 程 序 被 编译 为 
“.o” 目 标 代码 ， 然 后 与 所 有 其 他 “. o” 对 象 和 库 对 象 组 合 在 一 起 ， 以 创建 可 执行 文件 。 如 
图 8-4 所 示 。 





图 8-4 大 多 数 程序 由 多 个 源 文件 组 成 ， 图 中 所 示 为 链接 器 将 
这 些 源 文件 组 合成 一 个 名 为 a out 的 可 执行 文件 


8.2.1.2 交叉 编译 

由 于 是 编译 器 创建 可 执行 代码 ， 因 此 它们 基于 特定 的 处 理 器 和 机 器 。 这 意味 着 ARM 处 理 
器 的 编译 器 将 输出 ARM 机 器 代码 ， 而 x86 编译 器 将 输出 x86 机 器 代码 。 

特别 是 对 于 艇 入 式 系统 开发 ， 很 多 ARM 代码 都 是 程序 员 在 x86 硬件 上 通过 台式 机 和 笔记 
本 电脑 编写 的 ， 这 些 设 备 拥 有 各 种 操作 系统 (例如 ，MacO0S-X、Ubuntu、Microsoft Windows 
等 ) 。 正 在 编写 代码 的 系统 可 能 和 目标 系统 具有 不 同 的 操作 系统 〈 或 没有 操作 系统 ) ， 或 是 具 
有 不 同 的 处 理 器 、 不 同 的 存储 器 映射 以 及 与 程序 员 正 在 使 用 的 机 器 不 同 的 外 围 设备 。 

交叉 编译 是 指 在 一 台 计 算 机 上 构建 软件 ， 并 在 另 一 台 不 同 的 机 器 上 执行 的 过 程 。 交 叉 编 译 
中 的 两 个 重要 术语 是 : 

。 目标 : 正在 构建 软件 将 要 运行 的 系统 。 

。 主机 : 软件 开发 过 程 所 在 的 系统 。 

目标 和 主机 通常 根据 处 理 器 和 硬件 系统 以 及 它们 的 操作 系统 来 识别 。 例 如 ， 可 能 正在 使 用 
的 是 x86-linux 主机 为 arm-linux 目标 编写 代码 。 

在 x86 主机 上 运行 的 典型 交叉 编译 器 被 称 为 arm-linux- gcc。 这 是 一 个 在 x86 机 器 上 运行 的 
程序 ,但 是 其 为 ARM 体系 结构 计算 机 输出 已 编译 的 机 器 代码 。ARM 可 执行 文件 在 x86 主机 上 
生成 ， 然 后 需要 下 载 或 复制 到 ARM 目标 以 进行 测试 。 根 据 ARM 系统 的 确切 功能 ， 可 以 通过 
JTAG 连接 、 串 行 端 口 、USB 、 网 络 或 直接 编程 到 板 载 闪 存 中 来 对 交叉 编译 的 代码 进行 测试 。 

8.2.1.3 硬件 仿真 

还 可 以 使 用 仿真 器 在 一 个 计算 机 的 体系 结构 上 执行 为 一 个 计算 机 体系 结构 编写 的 代码 。 仿 


日 ”在 实践 中 ,许多 程序 员 使 用 一 个 名 为 make 的 实用 程序 来 控制 编译 和 链接 过 程 。make 能 够 确保 所 有 文件 保 
持 最 新 的 状态 ， 编 译 后 与 正确 的 关联 “.o” 文 件 组 合 ， 并 以 正确 的 顺序 链接 。 
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真 技术 (将 在 9.3. 6. 1 节 中 简要 讨论 ) 允许 一 种 类 型 的 计算 机 上 的 可 执行 文件 在 不 同类 型 的 计 
算 机 上 运行 。 这 本 身 就 是 一 个 重要 的 研究 领域 ， 而 且 它 与 交叉 编译 相 结合 后 的 应 用 非常 实用 。 
例如 ， 如 果 在 x86 主机 上 交叉 编译 am-linux 程序 ， 则 可 以 通过 ARM 仿真 器 直接 在 x86 架构 计 
算 机 上 执行 ARM 体系 结构 的 程序 。 

这 是 一 种 非常 方便 的 测试 编译 代码 的 方法 一 一 它 比 通过 串 行 链接 将 可 执行 文件 下 载 到 目标 
硬件 ， 或 将 其 编程 到 闪存 后 重新 启动 目标 硬件 进行 测试 的 方法 更 加 快捷 。 

8.2.1.4 编程 型 语言 的 特性 

在 已 开发 的 数 百 种 不 同类 型 的 编译 型 编程 语言 中 ， 只 有 少数 几 种 语言 被 广泛 采用 并 编写 了 
当今 的 绝 大 多 数 代码 。 这 些 语 言 包 括 C (以 及 C ++ 和 其 他 变 体 ) ， 以 及 最 近 的 Java。 令 人 惊讶 
的 是 ， 少 数 领域 仍 存在 用 FORTRAN (用 于 数值 计算 ) 和 COBOL (用 于 商业 应 用 程序 ) 编写 的 
旧 的 应 用 程序 。 

各 种 编程 语言 在 编码 的 简易 性 、 调 试 的 容易 程度 、 稳 健 性 、 内 存 效 率 、 速 度 、 安 全 性 、 灵 
活性 以 及 错误 倾向 等 方面 存在 很 大 的 差异 。 不 同 的 语言 在 不 同 领域 具有 特别 的 优势 。 比 如 C 用 
于 内 入 式 系统 ，Java 用 于 图 形 用 户 界面 ，Ada 用 于 实时 和 可 靠 系统 ，C ++ 用 于 游戏 和 快速 图 形 
编程 ， 还 有 其 他 各 种 专用 语言 用 于 不 同 的 应 用 领域 。 

目前 所 讨论 的 是 编译 语言 ， 程 序 用 源 代 码 编写 后 编译 成 机 器 代码 以 便 执 行 。 与 编译 型 语言 
对 应 的 是 解释 型 语言 ， 源 代码 先 在 解释 器 中 一 步 一 步 地 直接 执行 。 

在 学 习 解 释 型 语言 的 更 多 细节 之 前 ， 应 该 注意 到 某 些 语言 是 处 于 “中 间 ” 位 置 的 。Java 就 
是 一 个 例子 ， 源 代码 被 编译 为 一 组 紧凑 的 指令 Bytecode， 它 可 以 直接 在 专用 的 Java 处 理 器 〈 例 
如 ，4. 8 节 的 ARMs Jazelle) 上 执行 ， 或 者 在 解释 器 上 执行 (例如 JVM， 即 Java 虚拟 机 ， 或 
JRE， 即 Java 运行 环境 ) 。 


8.2.2 解释 型 语言 

与 编译 型 语言 一 样 ， 针 对 不 同 的 应 用 情形 有 不 同 的 解释 型 语言 。 其 范围 包括 文本 处 理 、 编 
译 器 设计 、 数 学 计算 、 系 统 引 导 、 图 形 用 户 界面 、 数 据 库 处 理 以 及 shell 处 理 ( 即 操作 系统 的 
命令 和 控制 ) 等 。 虽 然 种 类 繁多 ,但 解释 型 语言 通常 比 编译 型 语言 更 快捷 和 简单 ， 除 某 些 特 
殊 情 况 外 ， 通常 它 们 使 用 起 来 更 方便 ,并且 执 行 速度 较 慢 。 使 用 解释 型 编程 语言 编写 的 程 
序 风格 和 结构 以 及 使 用 方式 差异 很 大 。 在 不 同类 型 的 语言 之 间 进 行 选择 时 ， 应 考虑 它们 在 
以 下 因素 下 所 具备 的 不 同 的 优势 : 

。 运作 效率 。 
代码 紧凑 性 。 
速度 、 吞 吐 量 或 响应 时 间 。 
易于 编写 〈 或 易于 调试 ) 。 
开发 成 本 、 时 间或 专业 知识 。 
平台 独立 性 (语言 能 够 操作 的 硬件 范围 ) 。 

。 支持 的 可 用 性 (和 成 本 )。 

8.2.2.1 解释 器 

如 图 8-5 所 示 ， 解 释 型 语言 使 用 文本 编辑 器 编写 ， 保 存 为 源 文件 后 在 解释 器 中 运行 。 解 释 
器 本 身 是 在 计算 机 上 运行 的 可 执行 程序 (与 直接 执行 的 编译 型 程序 不 同 )。 因 此 ， 当 编译 后 的 
程序 被 编译 成 可 以 执行 的 机 器 代码 程序 时 ， 被 解释 的 程序 以 源 代码 形式 保存 ， 然 后 在 解释 器 中 
运行 。 在 解释 器 中 ， 程 序 被 从 文件 中 加 载 ， 然 后 逐步 运行 ， 依 次 执行 每 个 命令 、 循 环 、 分 支 和 
函数 ， 并 根据 需要 调用 共享 库 。 
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图 8-5 解释 型 语言 中 的 程序 使 用 文本 编辑 器 编写 ， 保 存 为 源 代 码 后 在 解释 器 中 执行 


实际 上 ， 解 释 器 的 理念 和 微 码 背 后 的 理念 之 间 存 在 很 多 共性 (参见 3.2.5 节 )。 微 码 由 硬件 
解释 器 有 效 地 执行 ， 其 中 硬件 解释 器 将 每 个 语言 指令 ( 令 牌 ) 处 理 成 多 个 机 器 指令 。 计 算 机 执行 
单个 解释 型 语言 的 指令 时 ， 通 常 需要 产生 数 百 甚至 数 千 个 机 器 指令 。 这 使 得 解释 型 语言 更 加 
“紧凑 ”， 因 为 相 较 于 编译 型 语言 ， 在 源 代码 长 度 相近 时 ， 解 释 型 语言 能 够 实现 更 多 的 逻辑 。 

当然 ,无论 是 对 解释 型 语言 还 是 编译 型 语言 ， 我 们 都 提 到 了 库 也 数 。 现 代 计 算 机 中 的 大 部 
分 复杂 操作 都 由 这 些 库 函 数 处 理 ， 这 些 操 作 包 括 许多 图 形 用 户 界 面 、 加 密 、 文 档 处 理 和 打印 、 
网 络 和 通信 操作 、 数 学 函数 、 文 本 处 理 、 视 频 、 图 形 和 声音 。 由 于 共享 库 提 供 了 丰富 的 功能 ， 
一 些 程序 只 需要 对 库 函 数 进 行 调用 和 组 合 。 

当 解 释 型 程序 主要 由 调用 的 库 函 数组 成 时 ， 它 们 可 能 与 使 用 相同 函数 的 编译 型 程序 一 样 高 
效 ， 但 更 容易 编写 和 修改 〈 因 为 不 需要 编译 链接 步骤 ) 。 然 而 ， 编 译 型 语言 中 的 一 系列 操作 通 
常 比 解释 型 程序 中 的 相同 操作 更 快 上 且 更 有 效 。 类 似 地 ， 汇 编 语言 的 执行 速度 更 快 〈 但 通常 不 会 
这 么 写 ) ， 因 此 汇编 语言 是 “非常 低级 ”的 语言 ， 编 译 型 语言 通常 是 低级 语言 ， 解 释 型 语言 是 
高 级 语言 。 最 高 级 别 的 语言 通常 被 认为 是 人 类 的 自然 语言 。 有 一 种 观点 认为 ， 有 一 天 可 以 通过 
人 类 语言 在 计算 机 上 “编程 ”， 但 这 远 远 超出 了 本 书 的 范围 。 

8.2.2.2 集成 开发 环境 

如 今 ， 许 多 程序 员 应 用 集成 开发 环境 (IDE) 来 编写 、 执 行 、 调 试 和 测试 他 们 的 代码 。 
IDE 可 以 用 于 编译 型 语言 和 解释 型 语言 ， 并 且 在 某 些 意义 上 ，IDE 模糊 了 两 种 语言 之 间 的 区 别 。 

程序 员 使 用 内 置 文本 编辑 器 直接 在 IDE 中 编写 代码 ， 然 后 在 IDE 中 编译 、 执 行 或 解释 它们 
(取决 于 是 使 用 编译 型 语言 还 是 解释 型 语言 )。 执 行 /解释 步骤 也 可 以 在 IDE 外 部 完成 ， 但 是 大 
多 数 IDE 提供 了 广泛 的 调试 功能 ， 所 以 程序 员 没 有 什么 动力 去 这 么 做 , 但是， 最 终 的 代码 在 完 
成 后 几乎 总 是 需要 运行 在 IDE 之 外 。 

IDE 是 一 个 在 计算 机 上 运行 的 大 型 应 用 程序 一 一 可 能 是 图 形 密集 型 的 ， 具 有 内 置 的 帮助 功 
能 ， 并 显著 提高 新 手 用 户 编程 的 速度 和 便利 性 。 虽 然 这 些 都 是 出 色 的 功能 ， 但 它们 也 可 能 隐藏 
程序 员 眼 中 的 一 系列 低级 操作 。 因 此 ， 尽 管 程序 员 眼 中 的 IDE 图 形 丰富 并 可 顺利 集成 一 些 功 
能 ， 用 户 仍 需要 了 解 前 面 (8.2.1 节 和 8.2.2 节 ) 描述 的 IDE 背后 的 原理 。 

8.2.2.3 其 他 解释 型 语言 

随 着 越 来 越 多 基于 Web 的 交互 出 现 ， 基 于 Web 的 解释 型 语言 的 使 用 也 大 量 增长 。 例 如 ， 
Web 浏览 器 访问 网 站 和 基于 云 计算 的 连接 。 超 文本 标记 语言 ( HTML) 、JavaScript、PHP( 超 文 
本 预 处 理 器 ) 以 及 各 种 其 他 解释 型 语言 已 经 设计 为 在 客户 端 和 服务 器 之 间 的 链接 上 运行 ( 参 
见 第 10 章 )。 

根据 指定 的 语言 ， 在 客户 端的 Web 浏览 器 或 Web 服务 器 上 进行 解释 ( 即 执 行 )， 并 最 终 显 
示 在 客户 端的 浏览 器 窗口 中 。 例 如 ， 当 Web 浏览 器 连接 到 远程 Web 服务 器 以 访问 网 页 时 ， 该 
操作 可 以 触发 在 该 Web 服务 器 上 运行 的 一 组 PHP 代码 ， 继 而 该 Web 服务 器 会 生成 包含 HTML 








和 JavaScript 的 网 页 。 在 Web 服务 器 上 解释 的 PHP 程序 旨 在 创建 输出 “文档 ”， 因 此 Web 服务 
器 也 是 PHP 代码 的 解释 器 的 一 部 分 。 

包含 HTML 和 JavaScript 的 输出 文档 将 被 发 送 到 客户 端 Web 浏览 器 。 该 Web 浏览 器 的 作用 
是 解释 HTML 和 JavaScript 代码 并 显示 结果 。 因 此 ，Web 浏览 器 也 是 一 个 解释 器 ， 浏 览 器 窗口 
中 的 最 终 显示 包含 HTML 和 JavaScript 程序 执行 后 生成 的 文本 和 图 形 。 

这 只 是 每 天 发 生 的 数 百 万 次 网 络 交互 中 的 一 个 例子 。 解 释 型 语言 在 许多 其 他 领域 也 得 到 了 
广泛 应 用 ,包括 数据 库 访 问 、 智 能 手机 上 的 图 形 用 户 界面 显示 、 人 机 交互 、 计 算 机 启动 脚本 、 
卫星 运行 调度 、 控 制 系统 (跨越 工业 自动 化 到 家 庭 温度 控制 等 众多 领域 )， 以 及 越 来 越 多 的 其 
他 领域 。 


8. 3 UNIX 编程 模型 


基于 UNIX 的 操作 系统 假设 整个 操作 系统 由 控制 台 控制 。 在 过 去 ， 这 个 控制 台 的 角色 可 能 
是 超级 用 户 或 系统 操作 员 所 在 的 计算 机 终端 ， 但 现在 它 是 系统 启动 和 管理 的 控制 输入 。 操 作 系 
统 启动 并 运行 内 核 后 ， 自 动 脚 本 将 启动 图 形 用 户 界面 、Web 服务 器 以 及 其 他 需要 自动 启动 的 操 
作 软 件 。 这 些 启动 脚本 也 可 以 由 操作 员 手 动 输入 ， 如 果 是 这 样 ， 则 需要 在 控制 台 输入 命令 。 

在 现代 操作 系统 中 ， 控 制 台 通过 用 户 运 行 终端 程序 来 访问 〈Ubuntu Linux 和 Mac 0S-X 都 
称 为 终端 程序 ) 。 对 于 嵌入 式 系统 ， 可 能 需要 通过 串 行 端口 或 使 用 USB 来 连接 外 部 终端 (通常 
更 实用 的 是 模拟 终端 的 外 部 计算 机 ) 。 对 于 接 人 网 络 的 嵌入 式 系统 ， 在 外 部 网 络 计 算 机 上 运行 
的 称 为 远程 登录 程序 (Telnet) 的 程序 通常 能 够 连接 到 和 骨 和 人 式 系 统 并 打开 终端 会 话 。 在 远程 登 
录 时 ， 应 用 安全 套 接 字 层 (SSL) 的 slogin 程序 是 更 安全 的 方案 。 

对 于 希望 以 这 种 方式 连接 到 授信 式 系统 的 Microsoft Windows 用 户 ， 名 为 putty 的 第 三 方程 
序 可 以 为 他 们 提供 许多 功能 。Microsoft Windows 本 身 并 不 需要 终端 ， 但 其 也 有 类 似 于 终端 的 功 
能 ， 通常 称 为 “DOS 提示 符 ” 或 “命令 窗口 "。 与 UNIX 控制 台 一 样 ， 它 是 一 种 命令 行 界面 。 


8.3.1 shell 


在 窗口 管理 器 和 图 形 用 户 界面 开始 流行 (或 发 明 ) 之 前 ,命令 行 界面 、 终 端 、 控 制 台 等 
是 计算 机 的 主要 人 机 界面 。 因 此 ， 它 们 的 运作 方式 对 于 计算 机 而 言 应 是 有 意义 的 ， 并 且 人 类 可 
读 。 这 需要 使 用 解释 器 一 一 一 种 将 人 类 可 读 的 命令 解释 为 计算 机 可 操作 命令 的 软件 。 在 早期 的 
家 用 计算 机 中 ,终端 直接 启动 到 BASIC 等 语言 的 解释 器 ， 但 科学 和 商业 计算 机 通常 启动 到 命令 
shell (或 DOS 提示 符 ) 。 

shell 旨 在 为 操作 员 (用 户 ) 提供 处 于 较 低 层面 上 的 直接 控制 操作 系统 的 能 力 ， 因 此 它 可 
以 是 一 个 非常 强大 的 接口 。 有 经 验 的 shell 用 户 也 可 以 比 那些 使 用 鼠标 和 图 形 用 户 界面 的 用 户 
更 快 地 控制 他 们 的 计算 机 。 

尽管 不 同 的 计算 机 使 用 不 同 的 软件 (具有 不 同 的 命令 名 称 和 语法 ) 来 实现 它们 的 shell 命 
令 , 但 这 些 shell 都 拥有 功能 强大 、 简 单方 便 和 快速 上 手 的 特性 。 过 去 一 些 shell 程序 被 移植 到 
不 同 的 操作 系统 ， 现 在 它们 已 经 被 普遍 使 用 。 以 下 shell 几乎 可 用 于 任何 现代 计算 机 【〈 包 括 嵌 
入 式 Linux 和 Android 系统 ，i0S 和 Mac0S): 




















e bash Bourne again shell 
e kshell Korn Shell 

® zsh Z shell 

® csh C-shell 

。 sh 一 一 最 基础 和 常用 的 shell 


[384 


1385 | 
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尽管 有 些 系 统 使 用 csh 或 其 他 替代 方案 ， 大 多 数 现代 基于 UNIX 的 系统 都 将 bash 作为 默认 
shell。 购 入 式 Linux 计算 机 通常 使 用 称 为 ash 或 lash 的 shell， 它 们 是 bash 的 轻 量 级 版 本 ， 并 且 
内 置 于 Busybox 中 (参见 9.5.3 节 )。 实 际 上 ，UNIX 系统 还 包括 基本 shell， 即 /bin/sh 作为 系统 
的 备份 shell。 在 UNIX 的 世界 里 ， 用 户 可 以 自己 选择 shell 一 一 同时 为 系统 的 不 同 用 户 提供 不 同 
的 shell 是 一 件 很 容易 的 事情 。 两 个 甚至 数 百 个 shell 同时 运行 ， 并 向 0S 提供 命令 输入 也 是 可 
实现 的 。 

shell 脚本 是 用 shell 语言 编写 并 被 保存 到 硬盘 (HDD) 里 的 程序 。 这 些 shell 脚本 通常 会 使 
用 其 他 的 在 系统 路 径 里 面 的 工具 和 实用 程序 ( 即 ， 命 令 行 工具 ) 。shell 脚本 非常 强大 ， 并 且 可 
以 毫 不 夸张 地 说 ， 是 shell 脚本 将 Internet 连接 在 一 起 。 

shell 的 类 型 有 很 多 〈 远 远 超 过 上 面 所 列 出 的 ) ， 因 为 任何 人 都 可 以 根据 自己 的 意愿 编写 
shell ， 而 编写 shell 时 使 用 的 语言 风格 不 同 。 除 此 之 外 ，shell 类 型 众多 的 原因 还 包括 用 户 友好 
性 或 者 针对 特定 用 户 定制 。 

经 验 丰 富 的 UNIX 程序 员 经 常 使 用 shell 语言 编写 程序 ， 然 后 进行 编译 、 链 接 、 执 行 和 调 
试 ， 最 后 使 程序 自动 化 。 无 论 是 通过 用 户 还 是 通过 图 形 用 户 接口 启动 ， 最 终 程序 在 正常 工作 时 
都 需要 从 shell 启动 。 

需要 说 明 的 是 ， 在 基于 UNIX 的 计算 机 中 ， 程 序 最 终 通 过 加 载 成 为 内 核 的 一 部 分 ， 或 者 通 
过 shell 执行 (程序 通过 从 shell 来 执行 或 通过 从 shell 执行 的 某 些 程序 来 执行 ) 。 

通过 shell 执行 的 程序 允许 更 改 优 先 级 (多 任务 的 情况 下 ) 、 暂 停 、 搁 置 在 后 台 (不 是 以 图 
形 的 方式 ， 而 是 在 “幕后 ”执行 ) 或 随意 终止 。 除 此 之 外 ， 还 允许 程序 从 各 种 位 置 、 文 件 或 
程序 接收 输入 ， 并 将 输出 发 送 到 其 他 文件 、 程 序 和 位 置 一 一 特别 是 通过 对 重 定 向 的 使 用 。 


8. 3.2 重 定向 和 数据 流 


在 基于 UNIX 的 操作 系统 中 运行 的 所 有 可 执行 程序 都 可 以 接收 输入 并 生成 输出 ， 如 图 8-6 
所 示 。 它 们 收 到 的 输入 和 它们 输出 的 内 容 取决 于 最 初 执行 的 方式 和 位 置 。 











图 8-6 ”默认 情况 下 ， 一 个 被 执行 的 程序 具有 输入 和 输出 数据 流 


一 个 在 终端 (或 终端 窗口 ) 手动 执行 的 程序 运行 一 个 shell 命令 (假设 它 不 是 后 台 任 务 )， 
键盘 输入 结果 将 由 操作 系统 传递 给 shell， 再 由 shell 传递 给 该 程序 ， 该 程序 将 接收 这 些 按键 结 
果 作 为 其 输入 。 如 果 程 序 在 屏幕 上 打印 或 显示 文本 消息 ， 则 该 文本 将 从 程序 传递 到 shell， 并 由 
shell 传递 给 操作 系统 以 显示 在 终端 (或 终端 窗口 ) 中 。 这 些 都 是 在 shell 中 运行 程序 的 正常 行 
为 ， 这 两 个 数据 流 分 别称 为 标准 输入 和 标准 输出 。 

在 UNIX 中 ， 默 认 情 况 下 编译 的 可 执行 文件 可 能 生成 另 一 个 输出 文本 流 ， 即 标准 错误 ， 并 
且 UNIX 允许 将 打印 的 错误 消息 与 正常 的 打印 输出 区 分 开 。 通 常 ， 对 于 在 shell 命令 中 行 执行 的 
程序 ， 两 种 类 型 的 消息 都 将 在 shell (在 终端 窗口 中 ) 打印 , 但 是 如 果 需 要 ，shell 程序 员 可 以 
很 容易 地 解 开 消息 流 。 图 8-7 显示 了 三 个 默认 流 ， 通 常 它们 会 被 编号 ， 在 UNIX 下 ， 分 别 为 0， 
1 

不 同 语言 编写 的 程序 有 不 同 的 处 理 文件 的 方法 ,但 UNIX 流 是 最 常见 的 。 





以 上 讨论 的 标准 输入 、 输 出 和 错误 接口 是 默认 数据 流 的 示例 ， 但 是 程序 员 可 以 选择 打开 从 
文件 系统 上 读 取 或 写 人 文件 的 其 他 数据 流 〈 并 按 顺 序 编号 ， 例 如 3,，4, 5 等 ) 。 





图 8-7 执行 程序 。 输 入 在 流 0 上 ， 标准 输出 在 流 1 上， 错误 消息 在 流 2 上 输出 


UNIX shell 最 强大 的 功能 之 一 是 能 够 重 定向 在 shell 中 启动 的 三 个 默认 程序 流 ， 命 令 也 相对 
简单 。 例 如 ， 编 译 的 程序 通常 这 样 执行 : 

./prog 
那么 以 下 四 个 bash shell 命令 将 分 别 重 定向 其 输出 、 输 入 、 错 误 日 志 ， 以 及 同时 重 定向 输入 和 
输出 


./Prog > output file 
./Prog < input_file 
./Prog 2> error log 
./Prog < input file > output file 2> error log 


如 果 程 序 在 相应 的 流 上 产生 任何 输出 〈 即 如 果 它 打印 了 任何 文本 或 错误 消息 ) ， 则 将 创建 
称 为 output_file 和 error_log 的 两 个 文本 文件 。 如 果 当 前 目录 中 有 这 些 名 称 的 文件 ， 它 们 将 会 被 
覆盖 。 当 运行 第 二 个 和 最 后 一 个 命令 时 ， 需 要 当前 目录 中 存在 文本 文件 input_file， 否 则 将 产生 
错误 〈 例 如 ,“ 没 有 这 样 的 文件 或 目录 ”) 。 图 8-8 以 图 形 方式 说 明了 最 终 的 命令 重 定向 示例 。 


fe Re output_file 
3 》 | error log 


图 8-8 UNIX shell 的 强大 功能 可 以 很 容易 地 将 流 重 定向 到 文件 或 从 文件 重 定向 [386 | 


事实 上 ， 像 bash 这 样 的 shell 足够 强大 ， 可 以 将 多 种 可 能 性 结合 在 一 起 ， 其 中 包括 将 信息 
从 一 个 程序 传输 到 另 一 个 程序 的 能 力 。 程 序 之 间 的 流传 输 可 以 采用 管道 字符 〈|) 的 方式 ， 如 
图 8-9 所 示 的 命令 : 


./progl < inF 2> erL | ./prog2 2>> erL 





input file 








图 8-9 ”执行 程序 的 过 程 ， 该 程序 有 一 个 输入 和 一 个 输出 数据 流 
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shell 脚本 是 一 个 非常 丰富 的 系统 控制 和 自动 化 工具 。 在 本 节 中 ， 我们 仅 涉及 其 功能 的 一 小 
部 分 一 一 包括 循环 类 型 、 条 件 评 估 、 文 件 处 理 、 错 误 控 制 、shell 多 任务 处 理 、 数 学 计算 和 文本 
处 理 等 。 


8. 3.3 实用 软件 


前 文 在 对 UNIX 编程 模型 进行 讨论 时 没有 给 出 能 使 程序 员 和 用 户 的 工作 更 便利 的 实例 ， 
但 是 讨论 了 GNU 编译 器 集合 (gcc) 、 高 度 灵活 的 make 程序 以 及 GNU 调试 器 gdb (参见 
7.16 节 ) ， 这 些 都 是 杰出 的 UNIX 工具 。 有 三 个 基于 shell 的 工具 程序 在 shell 脚本 中 非常 
常用 : 

® grep GNU 正则 表达 式 解 析 器 (尽管 原始 grep 不 是 GNU 版 本 ) 可 以 使 用 模板 匹配 快 
速 、 方 便 地 搜索 基于 字符 的 数据 。 正 则 表达 式 是 描述 模式 的 标准 方式 ， 也 是 许多 UNIX 
文件 处 理 和 文本 处 理 程序 都 能 理解 的 方式 。 例 如 ，grep ^ z. {4} 可 用 于 搜索 字典 文件 ， 
以 查找 以 字母 “z” 开 头 的 五 个 字母 的 单词 。 

e sed GNU 串 行 编辑 器 可 以 基于 正则 表达 式 快 速 、 方 便 地 修改 数据 流 。 它 可 以 轻松 地 
修改 或 删除 文件 中 一 个 或 多 个 指定 的 短语 或 单词 集 。 例 如 sed s / me / you / g 会 在 
文件 或 数据 流 中 将 所 有 的 “me” 都 更 改 为 “you”。 

e awk 通常 被 认为 是 “awkward” 这 个 词 的 缩写 ， 这 个 实用 程序 实际 上 是 以 其 发 明 者 
A. Aho、P. Weinberger 和 Brian Kernighan 命名 的 。 它 是 多 列 、 多 行 字符 数据 的 非常 好 的 
文本 分 析 工 具 。 

awk 有 一 种 非常 强大 的 编程 语言 来 控制 它 〈 同 样 也 支持 正则 表达 式 ) 。 举 个 简单 的 例子 : 


ls -1 | awk '{ size=size+$5; print sizej， 


以 上 代码 将 打印 当前 目录 中 所 有 文件 的 总 大 小 (打印 出 当前 目录 中 所 有 文件 的 详细 信息 ， 并 将 
文件 大 小 在 输出 文本 的 第 五 列 显示 ) 。 

软件 程序 和 资源 在 任何 UNIX 系统 上 均 可 用 ， 其 至 在 大 多 数 柑 入 式 Linux 和 Android 设备 上 
也 可 用 。 这 些 软件 程序 非常 强大 ， 并 配 有 很 好 的 文档 ， 通 常 非常 有 效 和 可 靠 。 


8.4 小 结 


本 章 开始 于 重新 介绍 程序 在 计算 机 上 的 执行 方式 (特别 是 计算 机 内 部 发 生 的 事情 ) ， 概 述 
了 如 何 编写 程序 。 但 我 们 没有 描述 程序 设计 、 实 现 或 编程 ， 因 为 它们 属于 软件 开发 而 不 是 计算 
机 系统 的 主题 。 我 们 讨论 了 编译 型 语言 和 解释 型 语言 的 不 同 特征 和 优势 ， 并 以 讨论 UNIX 编程 
模型 和 强大 的 UNIX shell 作为 结尾 。 

在 下 一 章 中 ， 将 讨论 操作 系统 以 及 大 多 数 计算 机 上 的 用 户 代码 与 底层 硬件 之 间 的 标准 软件 
层 。 很 多 程序 员 喜 欢 编写 软件 而 不 太 关心 执行 代码 的 计算 机 的 细节 和 复杂 性 ， 而 这 应 归功 于 操 
作 系 统 。 


思考 题 


8.1 程序 一 般 逐 行 执行 ， 但 是 某 些 指令 会 通过 使 执行 跳 转 到 程序 中 的 新 位 置 来 更 改 这 一 顺序 。 更 改 哪个 
CPU 寄存 器 才 可 使 程序 “跟随 跳 转 或 分 支 "? 

8.2 ”对 于 位 于 非 易 失 性 存储 介质 (如 硬盘 或 DVD-ROM) 上 的 用 户 程序 ， 是 直接 从 其 存储 介质 执行 还 是 
先 将 它们 移动 到 其 他 位 置 ? 如 果 是 ， 它 们 将 移 到 哪里 ? 

8.3 用 于 将 汇编 语言 程序 转换 为 机 器 代码 的 程序 名 称 是 什么 ? 

8.4 用 于 将 大 多 数 C 语言 程序 转换 为 机 器 代码 的 程序 名 称 是 什么 ? 














8.5 


8.6 


使 用 安装 在 MacBook 计算 机 上 的 集成 开发 环境 软件 编写 程序 并 为 Android 智能 手机 交叉 编译 时 ， 哪 
个 设备 是 目标 ， 哪 个 是 主机 ? 
以 下 哪些 语言 是 编译 型 语言 ， 哪 些 是 解释 型 语言 : Python、XML、FORTH、C ++、Ada、Perl、 
Lisp? 
用 一 句 话 描述 嵌入 式 ARM 计算 机 上 引导 加 载 程序 的 功能 和 位 置 。 
如 果 用 编译 型 语言 编写 程序 ， 如 C， 该 程序 包含 许多 不 同 的 源 文件 ， 那 么 将 源 文 件 中 的 代码 连接 到 
最 终 可 执行 程序 的 程序 名 称 是 什么 ? 
语法 错误 是 程序 代码 编写 方式 的 错误 ， 而 运行 时 错误 是 程序 执行 期 间 出 现 的 问题 。 在 编译 C 之 类 的 
语言 时 会 捕获 哪 种 类 型 的 错误 ? 
在 台式 计算 机 上 运行 的 Web 浏览 器 连接 到 远程 Web 服务 器 以 请 求 HTML 页 面 ， 然 后 显示 在 屏幕 [389 
上 。 此 事务 涉及 三 个 主要 程序 一 一 Web 浏览 器 软件 、 下 载 的 HTML 代码 和 Web 服务 器 软件 。 其 中 0 
每 个 程序 是 编译 型 软件 还 是 解释 型 软件 ? 
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第 8 章 探讨 了 计算 机 的 编程 ， 并 指出 这 样 做 的 目的 是 使 计算 机 完成 人 们 想 要 它 做 的 事情 。 
这 意味 着 编程 是 一 种 从 硬件 中 获取 价值 的 方法 。 没 有 程序 ， 计 算 机 只 是 一 块 硅 、 金 属 和 塑料 的 
聚合 体 ， 但 是 如 果 有 一 个 足够 好 的 程序 ， 它 就 可 以 执行 各 种 任务 ， 如 保持 起 搏 器 运行 、 驾 驶 货 
船 、 通 过 小 行星 带 绘制 航线 、 运 行 虚拟 现实 游戏 、 在 音乐 会 上 提供 音乐 ， 或 教 宝宝 说 话 等 。 令 
人 惊讶 的 是 ， 相 同 的 硬件 可 以 在 程序 员 手 中 完成 许多 不 同 的 事情 。 

但 是 ， 大 多 数 人 都 知道 程序 和 “人 金属 ”之 间 存 在 着 某 种 东西 ， 那 就 是 操作 系统 。 与 硬件 
本 身 一 样 ， 即 使 不 同 程序 允许 整个 系统 执行 不 同 的 操作 ， 操 作 系统 仍然 保持 不 变 。 


9.1 操作 系统 的 含义 

操作 系统 是 位 于 硬件 和 用 户 程序 之 间 的 低级 软件 ， 但 是 这 一 定义 并 不 能 让 人 们 真正 理解 什 
么 是 操作 系统 。 实 际 上 有 两 种 完全 不 同 的 方式 来 认识 操作 系统 。 第 一 种 是 从 最 早 的 操作 系统 开 
始 ， 看 看 它 是 如 何 成 为 现在 的 样子 的 ; 第 二 种 是 仅仅 看 现在 的 操作 系统 。 在 第 1 章 中 使 用 了 同 
样 的 方法 来 看 待 CPU， 首 先 简要 介绍 了 计算 机 的 发 展 ， 然 后 开始 考虑 什么 是 现代 计算 机 。 这 两 
种 方法 都 有 其 价值 。 发 展 过 程 中 的 每 一 步 都 是 对 所 产生 的 问题 的 回应 ， 每 一 个 新 想法 都 有 其 原 
因 。 有 些 想法 在 它们 被 发 明 的 时 候 是 好 的 ,但 后 来 因为 其 他 问题 而 被 抛弃 ， 其 中 也 有 很 多 经 得 
起 时 间 的 考验 ， 现 在 仍 在 使 用 。 了 人 解 这 些 想法 及 其 产生 的 原因 ， 可 以 更 深入 地 了 解 它们 的 工作 
原理 。 另 外 ， 剂 析 一 个 现代 设备 对 以 后 的 研究 大 有 神 益 。 

本 章 同时 使 用 了 以 上 两 种 方法 。 首 先 对 现代 操作 系统 及 其 特征 进行 详尽 的 描述 ， 然 后 展开 
描述 ， 并 在 有 价值 的 地 方 深 入 研究 特征 背后 的 历史 原因 。 


9.2 为 什么 需要 操作 系统 


实际 上 只 要 程序 的 编写 方式 使 其 能 够 取代 低级 操作 系统 功能 ， 任 何 计算 机 都 可 以 在 没有 操 
作 系 统 的 情况 下 运行 程序 。 但 是 绝 大 多 数 的 计算 机 都 使 用 操作 系统 ， 因 为 在 一 个 编写 良好 的 操 
作 系 统 的 支持 下 ， 让 计算 机 做 你 想 做 的 事情 将 变 得 更 加 简单 。 

现代 操作 系统 几乎 都 具有 以 下 特征 : 

。 它们 将 硬件 进行 “抽象 ”表示 〈 程 序 员 不 需要 准确 理解 硬件 包含 的 内 容 ， 且 当 硬 件 发 

生 微小 变化 时 不 需要 重 写 程序 ) 。 

。 它们 提供 一 致 的 软件 接口 来 控制 硬件 功能 ， 并 允许 各 种 形式 的 0。 

。 它们 允许 每 个 程序 认为 自己 是 计算 机 上 唯一 运行 的 程序 ， 而 实际 上 许多 程序 可 能 正在 
共享 计算 机 。 
它们 使 得 开发 (和 移植 ) 代码 更 快 。 
通常 它们 会 在 调试 时 提供 很 多 帮助 。 
它们 可 以 强制 执行 来 确保 系统 安全 。 
它们 可 以 为 用 户 或 程序 员 提 供 访问 和 控制 计算 机 的 一 致 方法 。 

有 一 点 需要 说 明 的 是 ， 当 用 户 与 台式 计算 机 或 笔记 本 电脑 进行 交互 时 ， 实 际 上 与 用 户 交流 
的 不 是 GUI， 也 不 是 Android 智能 手机 上 的 欢迎 屏幕 或 iPad 上 的 显示 屏 ， 而 是 人 们 看 不 到 的 操 
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作 系 统 。 

很 多 人 都 认为 计算 机 的 显示 界面 (GUI 或 窗口 、 图 标 、 鼠 标 和 指针 (WIMP) 接口 ) 是 操 
作 系 统 ， 但 其 实 并 不 是 。 这 种 界面 通常 被 称 为 “窗口 管理 器 ”， 并 且 大 多 数 计算 机 的 操作 系统 
支持 具有 不 同 特征 的 窗口 管理 器 。 窗 口 管理 器 允许 用 户 选择 界面 类 型 ， 同 时 不 影响 系统 的 基础 
操作 、 安 全 性 和 功能 。 

虽然 许多 操作 系统 允许 选择 窗口 管理 器 ， 但 有 些 操作 系统 与 固定 CUI 相关 联 。 此 类 限制 的 
常见 示例 包括 i0S、Microsoft Windows 和 Android， 虽 然 它 们 有 外 观 配置 设置 ， 但 都 具有 固定 的 
窗口 管理 器 。 真 正 的 多 用 户 操作 系统 更 加 灵活 ， 如 Linux 和 FreeBSD。 它 们 不 仅 人 允许 选择 窗口 
管理 器 ， 而 且 可 以 轻松 地 同时 运行 多 个 不 同 的 窗口 管理 器 。 此 功能 允许 Linux (以 及 类 似 的 基 
于 UNIX 的 系统 ) 在 单个 机 器 上 支持 多 个 用 户 ， 甚 至 允许 每 个 用 户 通过 自己 选择 的 完全 不 同 的 
窗口 管理 器 与 系统 交互 。 


9.2.1 操作 系统 的 特征 


常见 的 操作 系统 包括 Android (在 撰写 本 书 时 用 于 大 多 数 智能 手机 )、Linux (用 于 大 多 数 
Internet 服务 器 、 大 型 集群 计算 机 ， 也 构成 了 Android 的 核心 )、FreeBSD、MacOS、 Microsoft 
Windows (大 多 数 台式 计算 机 上 仍然 使 用 ， 特 别 是 新 手 用 户 ) 、uC/Z0OS 和 VxWorks (通常 用 于 
小 型 嵌入 式 系统 或 高 可 靠 性 系统 ) 。 

一 些 操作 系统 适用 于 小 型 和 低 功 率 CPU， 一 些 适用 于 中 型 CPU， 另 一 些 则 适用 于 大 型 
CPU。 这 通常 取决 于 它们 的 功能 、 支 持 和 设计 重点 ， 也 取决 于 市 场 压 力 和 开发 人 员 的 熟悉 程 
度 。 所 有 操作 系统 的 特征 都 不 同 ， 特 别 是 以 下 方面 : 

。 响应 能 力 一 一 操作 系统 对 外 部 事件 的 反应 速度 。 

。 有 效 性 一 一 操作 系统 占用 的 CPU 时 间 。 

。 灵活 性 一 一 操作 系统 可 以 做 什么 ， 以 及 可 以 在 什么 样 的 CPU 上 运行 (到 目前 为 止 , 在 

这 方面 最 灵活 的 操作 系统 是 Linux， 它 几乎 可 以 在 所 有 CPU 上 运行 ) 。 
。 安全 性 一 一 即使 不 运行 特殊 安全 软件 ， 某 些 操作 系统 本 质 上 也 比 其 他 操作 系统 更 安全 。 








。 可 靠 性 一 一 月 演 、 重 启 或 其 他 错误 出 现 的 频率 。 

下 表 中 针对 9 种 常见 操作 系统 ( 数 百 个 可 能 的 示例 中 ) 探讨 了 这 些 特征 中 前 的 四 个 特征 ， 
其 中 给 出 了 关于 操作 系统 提供 所 需 特征 的 能 力 的 判定 。 这 被 视 为 近似 指标 ， 并 没有 具体 的 数值 
分 析 。 

















响应 能 力 效 全 
Android 中 中 | 好 中 
Linux 中 好 好 好 
FreeBSD 中 好 好 好 
MacOS 中 中 好 好 
MS-DOS 中 中 中 差 
MS Windows 差 差 中 中 
LC/OS 好 好 好 中 
VxWorks 好 好 中 中 








可 靠 性 

在 可 靠 性 方面 ， 大 多 数 人 可 能 将 hkC/OS 和 VxWorks 评 为 最 可 靠 ， 其 次 是 Linux、FreeBSD 
和 Mac0S， 然 后 是 MS-DOS， 最 后 是 Microsoft Windows。 可 靠 性 是 安全 性 的 一 个 不 同方 面 (将 
在 下 面 介绍 ) ， 并 且 通 常 以 发 生 故 障 前 的 平均 时 间 (MTBF) 来 衡量 。 由 于 故障 有 不 同 的 方面 〈 例 
如 灾难 性 故障 ， 或 者 相反 ， 这 是 无 关 紧 要 的 故障 ) ， 且 并 非 所 有 故障 都 是 相同 的 ， 因 此 即使 对 于 
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非常 高 可 靠 性 的 系统 ， 我 们 也 需要 考虑 当 故 障 发 生 时 会 发 生 什 么 ， 以 及 系统 是 否 “ 不 再 安全 ”。 

因此 ， 软 件 工 程 师 倾向 于 考虑 一 个 软件 的 稳定 性 或 可 依赖 性 。 这 包括 是 否 在 需要 时 可 用 ， 是 
否 正确 运转 ， 是 否 有 副作用 〈 可 能 导致 信息 泄露 ) 。 可 靠 性 涵盖 了 可 用 性 、 稳 定性 、 安 全 性 和 防 
护 性 ， 有 时 可 靠 性 可 能 比 这 个 系统 的 基本 功能 更 重要 ， 尤 其 是 当 故 障 成 本 超过 系统 成 本 时 。 

可 用 性 是 指 系统 在 需要 时 正常 工作 的 概率 。 稳 定性 是 指 系统 在 给 定时 间 段 内 按照 用 户 的 预 
期 继续 正确 提供 服务 的 概率 。 安 全 性 是 指 判断 系统 对 人 员 或 环境 造成 危险 的 可 能 性 。 防 护 性 是 
指 对 系统 能 够 抵抗 故意 攻击 或 意外 泄露 信息 的 判断 。 

核电 站 的 控制 计算 机 可 能 将 安全 性 和 稳定 性 作为 最 重要 的 方面 ， 而 网 上 银行 软件 可 能 将 安 
全 性 作为 其 第 一 属性 (与 别人 的 随便 访问 相 比 ， 无 法 访问 自己 的 银行 账户 并 不 那么 要 紧 ， 因 此 
安全 性 比 可 用 性 更 重要 ) 。 大 多 数 大 型 软件 系统 都 需要 考虑 这 些 属性 ， 操 作 系统 也 是 如 此 。 


9.2.2 操作 系统 的 类 型 


可 以 根据 使 用 的 系统 大 小 ( 物理、 内存 或 复杂 性 等 ) 对 操作 系统 进行 分 类 ， 但 无 法 对 
Linux 进行 这 种 分 类 。Linux 目前 是 服务 器 市 场 或 超级 计算 机 等 超大 规模 系统 中 最 重要 的 操作 系 
统 ， 也 是 最 小 的 可 穿戴 设备 和 移动 设备 中 使 用 的 系统 。Linux 的 应 用 范围 跨度 较 大 ， 但 是 并 未 
能 在 传统 PC 和 笔记 本 电脑 中 占据 主导 地 位 ， 传 统 PC 和 笔记 本 电脑 通常 以 MacOS 和 Microsoft 
Windows 为 主 ， 但 是 基于 UNIX 的 操作 系统 具有 较 好 的 可 扩展 性 。 

除 此 之 外 ， 也 可 以 根据 单 用 户 系统 和 多 用 户 系统 对 操作 系统 进行 分 类 ， 单 用 户 系统 仅 提 供 
一 个 虚拟 机 (VM)， 其 中 包括 在 PC 上 运行 的 MS-DOS( 也 许 你 能 在 计算 机 历史 博物 馆 中 找到 
它 ) 。 但 是 也 有 部 分 单 用 户 系 统 支持 多 个 VM， 它 们 允许 同一 用 户 的 多 个 任务 同时 运行 。 例 如 ， 
Microsoft Windows(95、98、ME、NT、2000、XP、Vista、7、8 和 10) 和 较 小 的 舰 入 式 系 统 (如 
C/OS 和 VxWorks ) 。 

相反 ， 多 用 户 系 统 为 多 个 用 户 提供 多 个 VM， 每 个 用 户 可 以 具有 多 个 并 发 任务 ， 例 如 ， 
Linux、MacOS-X 和 FreeBSD， 以 及 其 他 UNIX 版 本 。 这 些 都 比 单 用 户 系统 具有 更 复杂 的 安全 机 
制 和 保护 机 制 。 它 们 是 自 下 而 上 设计 的 ， 以 满足 多 个 用 户 和 并 发 任务 的 需要 ， 因 此 创建 时 考虑 
了 多 用 户 安全 性 。 

近年 来 报道 的 安全 故障 多 来 自 连接 到 因特网 (或 更 广泛 的 网 络 ) 的 单 用 户 系 统 ， 不 同 的 
用 户 可 能 会 尝试 获取 访问 权限 ， 这 可 能 造成 严重 的 后 果 。 

9.2.2.1 贬 入 式 设备 

用 于 控制 特定 过 程 或 单 件 设备 的 组 入 式 系 统 是 单 用 户 计算 机 系统 ， 例 如 ， 洗衣机、 简单 的 
TV 卫星 接收 器 、 引 擎 管理 单元 、 安 全 警报 等 。 它 们 使 用 相对 简单 且 固 定 的 设备 ，CPU 只 需要 
处 理 单个 任务 。 

但 这 种 情况 正在 改变 。 骨 入 式 系 统 越 来 越 多 地 连 和 人 了 因特网 ， 其 中 一 些 设备 已 具有 多 用 
户 、 多 任务 处 理 功 能 。 在 撰写 本 书 时 ， 这些 设备 已 经 越 来 越 多 地 应 用 到 了 厨房 用 具 中 ， 如 水 
壶 、 冰 箱 、 微 波 炉 和 咖啡 机 ， 日 常用 具 连 接 网 络 在 未 来 是 一 种 趋势 。 令 人 困惑 的 是 ， 大 家 会 主 
动 让 陌生 人 访问 〈 也 可 能 窃取 ) 他 们 的 微波 炉 信 息 ， 这 也 是 互联 网 连通 性 的 一 个 准 端 ， 但 日 
常用 品 的 相互 连接 是 不 可 避免 的 。 

连接 网 络 的 设备 往往 配 有 更 安全 的 操作 系统 ， 如 Linux 、iOS 或 Android 的 符 入 式 版 本 〈 所 
有 这 些 都 是 基于 UNIX 的 ) 但 也 有 冰箱 包含 的 是 基于 Microsoft Windows 的 PC。 基于 UNIX 的 操 
作 系 统 目前 拥有 超过 90% 的 和 入 式 市 场 份额 。 由 于 Android 和 Apple 的 i0S 都 是 基于 UNIX 的 ， 
而 Android 是 建立 在 Linux 内 核 之 上 的 ， 因 此 全 球 能 人 式 系统 设计 人 员 选 择 的 操作 系统 几乎 完 
全 由 基于 UNIX 的 系统 主导 。 
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9. 2.2.2 集群 

用 于 云 计算 和 大 规模 信息 系统 的 基础 架构 集群 需要 支持 多 处 理 操作 。 这 些 集群 需要 操作 系 
统 级 支持 以 实现 跨 多 个 CPU 运行 程序 ， 并 且 必 须 具 有 最 高 级 别 的 多 用 户 安全 性 ， 因 此 几乎 选 
用 的 都 是 各 种 版 本 的 UNIX。 

世界 上 最 大 的 集群 计算 机 每 6 个 月 进行 一 次 调查 ， 并 在 名 为 www. top500. org 的 网 站 上 进行 
跟踪 。 该 网 站 提供 了 500 个 最 快 的 超级 计算 机 的 排名 列表 ， 包 括 操作 系统 、 国 家 /地 区 、 应 用 
程序 区 域 、 处 理 器 技术 等 详细 信息 。 我 们 将 在 第 12 章 框 12. 1 中 展示 部 分 示例 ， 通 过 这 些 示例 
可 以 看 出 : 

。 Linux 为 488 个 系统 提供 支持 。 

。 其 他 UNIX 为 10 个 系统 提供 支持 。 

e Microsoft Windows 为 1 个 系统 提供 支持 。 

还 有 1 个 未 知 。 但 很 明显 ， 在 地 球 上 500 个 最 强大 和 最 昂贵 的 计算 机 系统 中 ， 以 性 能 作为 
最 重要 的 评价 指标 时 ， 设 计 师 选择 了 基于 UNIX 的 操作 系统 。 


9.3 操作 系统 的 作用 


现代 操作 系统 实际 上 处 理 了 许多 计算 方面 的 任务 ， 但 两 个 最 重要 的 传统 功能 是 : 
。 资源 管理 器 控制 硬件 和 外 围 设备 ， 人 允许 它们 在 不 同 的 程序 和 用 户 之 间 共 享 。 
。 虚拟 机 让 程序 在 执行 时 认为 只 有 该 程序 在 该 硬件 上 运行 。 


9. 3. 1 资源 管理 


在 程序 和 用 户 之 间 共 享 的 资源 可 能 是 内 部 的 也 可 能 是 外 部 的 ， 并 可 能 会 动态 变化 。 内 部 资 
源 包括 CPU (参见 9.3.3 节 ) 、 寄 存 器 、 存 储 器 、 堆 栈 、 网 络 访问 、 中 断 、 存 储 〈 例 如 ， 硬盘 
或 固态 驱动 器 ) 以 及 FPU 或 CPU 等 执行 单元 。 外 部 资源 包括 显示 器 〈 可 能 有 多 个 ) 、 声 音 输 
入/ 输出、 键盘 、 按 钮 、 鼠 标 、 触 摸 板 或 触摸 屏 ， 以 及 连接 外 围 设备 端口 的 设备 〈 如 USB ) 。 

如 果 每 个 程序 都 试图 在 没有 协调 的 情况 下 使 用 它们 ， 则 将 导致 混乱 。 例 如 ， 如 果 两 个 程序 
同时 等 待 键盘 输入 ， 那 么 当 用 户 按 下 某 个 键 时 ， 用 户 如 何 知道 信息 进入 了 哪个 程序 ?因此 操作 
系统 需要 一 次 仅 给 一 个 程序 访问 键盘 的 权限 ， 并 告知 用 户 。 

在 具有 GUI 的 系统 中 ， 显 示 顺 最 前 端的 窗口 程序 〈 即 拥有 “焦点 ”的 程序 ) 将 接受 键盘 
的 输入 信息 。 用 户 希 望 的 是 拥有 “焦点 ”程序 接收 自己 的 输入 而 其 他 程序 处 于 等 待 状态 ， 同 
样 在 命令 行 中 ， 当 前 在 前 台 运 行 的 程序 将 接收 键盘 输入 ， 而 其 他 程序 将 在 后 台 等 待 。 虽 然 通常 
不 是 UNIX 系统 中 操作 系统 本 身 来 处 理 这 个 问题 (而 是 操作 系统 允许 称 为 shell 或 窗口 管理 吕 的 
程序 处 理 ) ， 但 这 是 一 个 为 什么 需要 资源 管理 的 例子 ， 资 源 管理 器 将 对 每 个 共享 资源 (包括 显 
示 、 声 音 、 鼠 标 等 ) 进行 管理 。 


9. 3.2 虚拟 机 


当 程 序 员 编写 软件 时 ， 并 不 关心 在 计算 机 上 同时 正在 运行 的 其 他 程序 ， 也 不 关心 正在 使 用 
什么 样 的 硬件 ， 他 们 只 是 想 编 写 执行 任务 所 需 的 软件 而 不 会 浪费 时 间 关 注 硬 件 。 

事实 上 ， 程 序 员 希 望 让 正在 设计 的 程序 如 同 是 在 一 台 完 全 标准 、 空 间 充 足 、 有 足够 内 存 的 
计算 机 上 执行 的 唯一 程序 ， 程 序 可 以 自由 的 使 用 内 存 、 读 写 文件 和 占用 CPU 时 间 ， 而 不 受 当 
前 正在 运行 的 其 他 程序 或 当前 用 户 使 用 的 特殊 硬件 的 影响 。 

幸运 的 是 ， 对 于 现代 的 程序 员 来 说 ， 他 们 除了 设计 程序 外 确实 不 再 需要 关注 其 他 的 事情 。 
现代 操作 系统 使 用 虚拟 机 概念 来 为 每 个 新 程序 提供 一 个 可 以 运行 的 虚拟 计算 机 。 每 个 程序 都 有 
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自己 的 程序 虚拟 机 。 程 序 运行 时 仅 认为 自己 是 唯一 运行 的 程序 ， 并 有 大 量 未 使 用 的 内 存 和 不 间 
断 的 CPU 时 间 。 程 序 并 不 知道 ， 操 作 系统 在 幕后 进行 管理 ， 以 便 可 以 执行 多 个 程序 。 
我 们 将 在 接 下 来 的 几 节 中 探讨 操作 系统 的 工作 原理 并 介绍 现代 操作 系统 的 其 他 几 个 属性 。 


9.3.3 CPU 时 间 


在 虚拟 机 中 ， 程 序 可 以 看 似 没 有 中 断 地 启动 和 运行 ， 直 到 程序 完成 。 然 而 ， 操 作 系 统 在 幕 
后 进行 了 大 量 的 管理 。 首 先 操作 系统 创建 一 个 类 似 于 空 容 器 的 虚拟 机 ， 然 后 将 程序 加 载 到 其 
中 。 该 容器 包含 CPU 时 间 、 内 存 区 域 、 外 围 设备 访问 权限 、 安 全 权限 和 优先 级 (将 在 后 面 讨 
论 ) 属性 。 容 器 由 操作 系统 加 载 到 主 存储 器 中 ， 并 分 配 一 些 CPU 时 间 ， 然 后 程序 开始 执行 。 
在 UNIX 术语 中 ， 这 个 容器 称 为 进程 (将 在 9.6 节 中 详细 介绍 ) 。 在 具有 多 进程 的 单个 CPU 机 
器 上 ， 每 个 进程 都 分 配 了 小 的 “时 间 片 ”， 在 经 过 几 微 秒 到 几 毫 秒 的 时 间 之 后 ， 操 作 系统 将 暂 
时 暂停 进程 ， 保 存 其 状态 (包括 内 存 、 寄 存 器 、 堆 栈 、 当 前 操作 ) ， 另 一 个 进程 将 使 用 小 部 分 
的 CPU 时 间 。 

从 程序 的 角度 来 看 ， 它 并 不 知道 暂停 操作 。 在 某 些 时 间 它 在 操作 过 程 中 被 冻结 。 然 后 操作 
系统 再 次 给 该 程序 分 配 一 些 时 间 ， 此 时 它 将 恢复 执行 ， 好 像 在 此 期 间 没有 发 生 任何 事情 。 但 很 
快 它 将 再 次 暂停 ， 然 后 重复 这 个 过 程 。 

即使 是 执行 短程 序 ， 也 可 能 暂时 暂停 任务 切换 时 间 
了 数 百 、 数 千 甚 至 数 百 万 次 。 它 的 执行 过 
程 中 可 能 散布 着 数 百 或 数 千 个 其 他 进程 ， ”程序 A 
所 有 进程 都 是 独立 的 ， 并且 没有 任何 一 个 ” 程序 B 
进程 相互 干扰 。 如 图 9-1 所 示 ， 其 中 三 个 ” 程序 C 
程序 共享 一 个 CPU。 操 作 系统 在 三 个 程序 


之 间 切 换 ， 以 便 每 个 程序 都 可 以 分 配 CPU 时 间 
时 间 。 重 点 是 操作 系统 负责 管理 ， 以 便 所 图 9-1 操作 系统 在 三 个 独立 程序 之 间 切 换 的 示例 ， 
有 程序 都 不 必 与 其 他 程序 交互 。 这 种 操作 系统 公平 地 为 每 个 程序 分 配 CPU 时 间 


系统 更 适合 称 为 多 任务 操作 系统 。” 

接 下 来 要 介绍 的 是 操作 系统 如 何 进行 切换 ， 如 何 决定 在 每 个 切换 点 执行 哪个 进程 ， 以 及 当 
前 未 执行 的 进程 发 生 了 什么 。 

需要 注意 的 是 ， 实 际 上 被 切换 的 是 任务 而 不 是 程序 ， 因 为 多 任务 程序 可 以 分 成 多 个 任务 ， 
更 多 细节 将 在 9. 6 节 介 绍 。 

切换 操作 本 身 同样 需要 时 间 ， 这 将 带 来 额外 的 操作 系统 开销 ， 并 可 能 导致 低 效率 。 频 繁 的 
切换 让 计算 机 有 更 好 的 响应 能 力 ， 但 也 会 带 来 更 大 的 开销 。 而 不 频繁 的 切换 效率 更 高 ,但 响应 
性 更 低 。 因 此 ， 大 多 数 多 任务 操作 系统 允许 根据 当前 应 用 程序 配置 任务 切换 。 例 如 ， 在 Linux 
中 ,这 可 以 在 逐个 任务 的 基础 上 完成 ， 也 可 以 通过 调整 整个 任务 调度 程序 来 完成 。= 

在 基于 UNIX 的 操作 系统 上 测量 CPU 执行 时 间 并 不 困难 〈 例 如 ， 使 用 名 为 time 的 系统 命令 
或 查看 ps 实用 程序 报告 的 数据 ， 这 将 在 稍 后 讨论 ) ， 并 将 报告 以 下 信息 : 首先 ， 经 过 的 时 间 就 
像 一 个 秒表 ， 它 在 程序 首次 执行 时 启动 ， 并 在 程序 完成 时 停止 。 其 次 ， 是 CPU 时 间 ， 它 是 程 


加 ”有 几 种 任务 切换 操作 系统 (包括 协同 多 任务 ) ， 其 中 程序 必须 放弃 控制 而 不 是 操作 系统 决定 何 时 切换 ， 但 大 
多 数 多 任务 操作 系统 如 上 所 述 。 

加 在 基于 UNIX 的 系统 上 ， 通 常 将 每 个 程序 或 任务 都 看 作 一 个 单独 的 过 程 ， 因 此 倾向 于 使 用 进程 切换 等 而 不 是 
任务 切换 ， 使 用 进程 管理 而 不 是 任务 管理 。 在 本 章 中 ， 任 务 和 进程 可 互 换 使 用 ， 除 非 另 有 说 明 ， 和 否则 可 视 
为 等 同 。 
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序 在 CPU 上 实际 执行 的 所 有 微小 持续 时 间 的 总 和 。 经 过 时 间 和 CPU 时 间 之 间 的 差异 告诉 我 们 
暂停 进程 多 长 时 间 。UNIX 计时 实用 程序 还 将 显示 执行 期 间 消耗 的 系统 时 间 ， 这 是 该 进程 的 任 
务 切换 时 间 的 总 和 ， 以 此 衡量 操作 系统 占用 的 开销 。 


9. 3.4 内 存 管 理 


除了 为 不 同 的 程序 (或 任务 ) 提供 CPU 时 间 外 ， 操 作 系统 还 负责 为 程序 提供 内 存 。 通 常 ， 
程序 在 首次 运行 时 被 授予 一 定量 的 内 存 ， 并 且 操 作 系统 为 程序 员 提供 了 一 种 方法 来 请 求 更 多 的 
内 存 块 ( 并 在 完成 后 释放 内 存 块 ) 。 

每 台 机 器 只 有 一 定数 量 的 可 用 内 存 , 但 虚拟 内 存 技术 (参见 4.3.1 节 ) 允许 程序 的 可 用 内 
存 空间 大 于 计算 机 中 的 物理 内 存量 。 使 用 虚拟 内 存 方 法 ， 操 作 系 统 可 以 为 每 个 虚拟 机 提供 足够 
的 内 存 ， 也 可 以 为 虚拟 机 提供 比 真实 机 器 更 多 的 内 存 ， 使 大 型 程序 可 以 在 小 型 机 器 上 运行 ， 而 
不 考虑 计算 机 的 实际 物理 限制 。 

如 果 没 有 虚拟 机 概念 ， 每 个 程序 都 必须 管理 自己 的 内 存 ， 并 与 当时 正在 运行 的 其 他 程序 合 
作 。 这 需要 是 动态 的 ， 因 为 只 要 执行 新 程序 或 停止 正在 运行 的 程序 ， 内 存 映 射 就 会 改变 。 

图 9-2 显示 了 计算 机 中 实际 物理 内 存 的 视图 ， 其 中 四 个 虚拟 机 各 自 具 有 整洁 且 唯 一 的 连续 
虚拟 内 存 空间 ， 但 实际 上 这 些 虚拟 机 分 散在 操作 系统 的 物理 内 存 中 。 从 物理 内 存 到 虚拟 内 存 的 
实际 映射 必须 非常 快 ， 因 为 内 存 访问 是 影响 程序 执行 速度 的 最 重要 因素 之 一 ， 因 此 映射 是 在 硬 
件 中 完成 的 。 从 硬件 角度 看 ， 这 属于 内 存 管理 单元 的 工作 ， 参 见 4.3 节 。 
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物理 存储 映射 中 包含 了 每 个 虚拟 机 的 块 每 个 虚拟 机 将 使 用 连续 的 存储 空间 
图 9-2 每 个 虚拟 机 接收 连续 整洁 的 块 ， 这 些 块 由 操作 系统 通过 物理 内 存 分 发 
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9. 3.5 存储 和 归档 


现代 操作 系统 的 另 一 个 功能 是 提供 持久 的 信息 存储 。 如 果 想 存储 某 一 信息 ， 那 么 这 一 信息 
可 以 顺利 地 存储 ， 并 在 以 后 进行 无 错误 检索 。 
虽然 存储 介质 具有 不 同 的 物理 属性 ， 但 通常 程序 员 并 不 想 学 习 如 何 指定 存储 信息 在 硬盘 上 
的 确切 位 置 ， 也 并 不 想 了 解 固态 驱动 器 中 闪存 硬件 的 工作 方式 ， 他 们 希望 能 够 简单 地 将 信息 传 
递 给 操作 系统 并 有 效 地 告诉 系统 “存储 它 ”。 
将 信息 保存 到 文件 时 ,程序 会 指定 要 保存 的 数据 和 人 类 可 读 的 文件 名 和 路 径 (路径 是 操作 
系统 的 位 置 ， 即 设备 名 称 和 目录 /文件 夹 )。 然 后 ,操作 系统 执行 保存 信息 操作 ， 包括 “与 存 
储 设备 通信 ”。 有 时 程序 员 会 指定 文件 的 名 称 和 位 置 ， 但 用 户 可 以 进行 修改 。 
类 似 地 ， 当 读 取 文件 时 ， 程 序 员 只 是 要 求 操作 系统 从 命名 设备 或 位 置 检 索 信 息 文件 。 选 择 
所 需 文 件 后 ， 操 作 系 统 与 设备 “对 话 ” 并 读 和 人 文件。 这 种 方式 比 在 硬盘 上 指定 物理 位 置 、 磁 
头 、 扇 区 和 柱 面 ， 然 后 必须 确定 存储 协议 和 测试 错误 更 加 容易 。 
操作 系统 和 文件 系统 可 以 为 此 提供 便利 性 ， 该 系统 将 结构 和 组 织 强加 到 硬盘 之 类 的 存储 介 
质 上 。 几 乎 每 个 操作 系统 都 提供 了 一 组 用 于 文件 处 理 的 函数 或 应 用 程序 编程 接口 (API) = 。 
如 下 所 示 : 
。 int open (char * path,int flags): 指定 要 打开 的 文件 名 和 路 径 (取决 于 flags)， 
用 于 读 取 、 写 人 或 读 取 并 写 和 信 。 写 入 时 ,将 创建 由 名 称 和 路 径 指 定 的 新 文件 ,或 者 打 
开 该 名 称 和 路 径 ( 如果 当 前 存在 ) 的 文件 。 在 这 种 情况 下 ，flags 决定 了 写 入 操作 会 将 
信息 附加 到 现 有 文件 的 末尾 还 是 覆盖 原文 件 。 如 果 函 数 失 败 ， 则 返回 一 个 整数 文件 搞 
述 符 人 或 -1。 

e int read(int fd,void * data,int nbytes): 当 给 定 文件 描述 符 (例如 上 面 的 open() 
函数 返回 的 结果 ) 时 ， 从 文件 中 读 取 接 下 来 n 字 节 ， 从 头 开 始 ， 将 信息 放 入 名 为 data 
的 内 存 地 址 中 。 它 将 返回 成 功 读 取 的 字 节 数 (如 果 文 件 结 束 ， 则 可 能 小 于 nn 字 节 )， 当 
数据 不 足 或 读 取出 现 错误 时 返回 -1。 

e int write(int fd,void * data,int nbytes): 将 指定 数量 的 字 节 从 内 存 中 的 数据 

缓冲 区 写 入 文件 描述 符 指定 的 文件 。 

。 close (int fd): 通过 关闭 文件 描述 符 指定 的 文件 来 结束 进程 。 

以 上 四 个 功能 是 各 类 编程 语言 、 操 作 系 统 ， 以 及 多 种 类 型 硬件 和 规模 的 机 器 所 共有 的 标准 
功能 。 从 程序 员 的 角度 来 看 ， 所 需要 的 只 是 指定 一 个 可 读 的 文件 名 ， 并 跟踪 文件 描述 符 。 在 程 
序 中 ， 这 些 可 以 保存 到 硬盘 ， 通 过 网 络 存 储 到 云端 、USB 驱动 器 、 固 态 驱 动 器 (SSD) 、 穿 孔 
带 或 闪存。 最 重要 的 是 程序 员 不 需要 知道 或 理解 所 有 这 些 是 如 何 工作 的 ， 操 作 系 统 负责 处 理 这 
一 搜 。 


9. 3.6 保护 和 错误 处 理 


现代 操作 系统 提供 的 另 一 个 有 用 功能 是 保护 每 个 虚拟 机 免 受 其 他 虚拟 机 中 错误 的 影响 。 在 
计算 的 早期 阶段 ， 机 器 中 的 错误 将 造成 灾难 性 的 影响 ， 使 计算 机 中 运行 的 所 有 内 容 完全 停止 并 
可 能 丢失 大 量 信息 。 由 于 复杂 程序 总 是 包含 错误 ， 因 此 硬件 和 操作 系统 设计 人 员 尽力 减 少 灾 难 
性 错误 的 影响 。 解 决 这 个 问题 的 一 个 重要 的 方法 是 扩展 虚拟 机 的 概念 ， 实 现 一 个 虚拟 机 中 的 错 
误 仅 影响 该 虚拟 机 而 不 影响 其 他 虚拟 机 。 这 意味 着 虚拟 机 可 以 有 效 地 相互 保护 ， 同 时 在 一 个 虚 


加 API ( 即 应 用 程序 编程 接口 ) 为 用 户 代码 提供 了 一 种 方法 ， 通 过 调用 已 定义 的 函数 名 称 并 提供 所 需 的 信息 来 
运行 预 编写 的 软件 库 函 数 。API 是 一 个 规范 ， 其 中 包含 了 函数 的 调用 方式 和 使 用 方法 。 
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拟 机 中 运行 的 恶意 程序 (理论 上 ) 不 影响 其 他 虚拟 机 。 

仿真 技术 

除了 上 面 讨论 的 要 点 之 外 ， 虚 拟 机 还 有 许多 其 他 重要 方面 。 该 技术 在 极端 的 情况 下 人 允许 不 
同类 型 的 机 器 在 不 同类 型 的 硬件 上 运行 。 这 衍生 出 了 在 第 8 章 中 涉及 的 硬件 仿真 。 例 如 ， 我们 
可 以 在 Mac0S-X 设备 上 开发 原型 和 执行 Android 代码 。 虽 然 生 成 的 虚拟 机 很 可 能 执行 较 慢 ， 但 
是 当 程序 员 喜 欢 在 Mac 或 PC 设备 上 而 不 是 直接 在 微型 嵌入 式 系统 上 编写 代码 时 ， 这 一 技术 将 
提供 极 大 的 便利 。 另 一 个 极端 的 例子 是 云 计算 中 常用 的 虚拟 化 技术 ， 其 中 PC“ 实 体 ” 可 以 作 
为 云 服 务 器 上 的 虚拟 机 供用 户 远 程 访问 。 用 户 不 知道 运行 机 器 的 底层 硬件 当前 的 具体 位 置 〈 实 
际 上 设备 可 能 会 从 一 个 更 改 为 另 一 个 ) ， 但 是 当 访 问 云 时 ， 可 以 同时 与 同一 个 虚拟 机 进行 交互 。 
在 某 些 情况 下 ， 甚 至 可 以 选择 并 行 运行 同一 台 机 器 的 多 个 副本 ， 从 而 提供 可 扩展 且 具 有 容错 性 
的 计算 资源 。 


9.4 操作 系统 的 结构 


计算 机 的 设计 者 和 程序 员 可 不 像 是 那 种 在 设计 系统 时 会 循规蹈矩 的 人 ， 因 此 多 年 来 有 着 多 
种 操作 系统 不 足 为 奇 。 幸 运 的 是 ， 这 些 设计 还 是 能 被 分 成 三 种 基本 结构 : 

e 单片机 ， 其 中 操作 系统 和 操作 代码 组 合成 一 个 大 型 程序 。 这 种 结构 在 大 型 系统 中 并 不 
常见 ， 但 常用 在 内 存 有 限 的 单 用 途 的 做 人 式 系统 中 。 尽 管 这 种 设计 往往 难以 维护 和 升 
级 ， 但 因为 定制 程度 高 ， 也 很 难 进行 逆向 工程 和 黑客 人 侵 ， 所 以 也 非常 安全 。 

分 层 操作 系统 将 其 功能 划分 为 在 用 户 程 序 和 底层 硬件 之 间 分 层 的 模块 。 
客户 端 - 服 务 器 操作 系统 由 具有 大 致 相同 状态 的 模块 组 成 ， 通 过 发 送 消息 和 请 求 进行 
通信 。 客 户 端 -服务 器 操作 系统 也 被 认为 是 一 种 微 内 核 方法 〈 微 内 核 是 一 种 非常 小 和 
紧凑 的 操作 系统 代码 项 ， 在 需要 时 调用 ， 类 似 于 客户 机 -服务 右 布 局 ) 。 

尽管 可 以 对 操作 系统 进行 这 种 整洁 的 分 类 ,但 大 多 数 现代 操作 系统 很 注重 实际 ， 基 本 是 不 
同 功 能 的 混合 结构 。 

对 于 操作 系统 的 结构 ， 大 多 数 可 以 分 为 两 到 三 个 主要 部 分 。 第 一 部 分 是 称 为 内 核 的 核心 基 
本 代码 ， 第 二 部 分 是 操作 系统 所 需 的 相关 程序 ， 用 于 维护 、 控 制 和 与 之 通信 。 第 三 部 分 是 设备 
驱动 程序 或 模块 ， 它 们 通常 由 单独 的 代码 块 提 供 (例如 并 不 是 核心 操作 系统 内 核 的 一 部 分 ) 。 
关于 内 核 的 进一步 解释 可 见 框 9. 1 。 
关于 内 核 的 扩展 内 容 

分 层 系 统 中 的 核心 层 或 单片机 系统 的 主要 部 分 即 为 内 核 ， 其 中 包含 了 绝 大 部 分 关键 代码 。 因 为 该 部 
分 代码 的 任何 错误 基本 都 会 使 系统 崩溃 ， 所 以 应 该 尽 可 能 简短 可 靠 ， 同 时 还 需要 验证 任意 请 求 、 连 接 或 
输入 ， 以 防止 外 部 进程 导致 崩溃 。 

通常 ， 操 作 系统 内 核 提供 了 : 

e 过 程 切换 和 控制 。 

。 通信 和 与 同步 机 制 。 

e 与 实际 硬件 的 交互 (例如 驱动 ) 。 

在 实践 中 ， 为 了 方便 或 可 靠 性 ， 还 需要 某 些 其 他 功能 ,但 主要 考虑 的 是 大 小 和 可 靠 性 。 一 些 操作 系 
统 将 内 核 分 为 “ 顶 ” 层 和 “ 底 ” 层 两 个 部 分 。 顶 层 部 分 会 保持 不 变 并 为 代码 和 用 户 程 序 提供 一 致 的 接 
口 ， 而 底层 部 分 则 会 在 不 同 的 硬件 上 发 生变 化 。 在 Windows 以 及 一 些 如 VxWorks 的 其 他 操作 系统 上 ， 底 
层 部 分 被 认为 是 硬件 抽象 层 (Hardware Abstraction Layer，HAL) 。 

在 Linux 操作 系统 里 ， 底 层 部 分 的 功能 主要 由 设备 驱动 或 内 核 模块 提供 。 

基本 的 内 核 包括 三 个 主要 部 分 ,一 阶 中 断 处 理 器 (First-Level Interrupt Handler，FLIH) 、 底 层 调度 程 
序 和 通信 原 语 。 对 于 模块 化 系统 ， 任 何其 他 的 东西 都 是 可 选 的 ， 可 以 根据 需要 添加 ， 典 型 的 情况 即 Linux 
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内 核 。 将 如 连接 、 内 存 管理 等 任意 处 理 “ 硬 件 ” 的 其 他 功能 归 类 为 内 核 的 一 部 分 的 做 法 同样 十 分 常见 
(特别 在 程序 员 中 ) ， 多 年 来 这 种 理念 已 经 发 展 为 将 “凌乱 ”的 硬件 抽象 出 来 以 尽 可 能 远离 程序 员 的 工作 
范畴 。 

一 阶 中 断 处 理 器 是 一 段 在 任意 一 个 中 断 发 生 时 执行 的 代码 。 中 断 或 异常 使 处 理 器 在 相应 的 中 断 向 量 
上 执行 代码 ， 该 中 断 向 量 通常 是 分 支 指令 ， 这 在 6.5 节 中 有 着 更 全 面 的 阐述 。 运 行 时 ， 这 个 分 支 会 直接 
跳 转 到 FLIH， 其 首先 会 保存 机 器 当前 的 状态 (上下文)， 随 后 使 得 中 断 被 服务 。 然 后 这 会 使 中 断 服务 程 
序 可 和 运行， 此 时 中 断 服务 程序 会 被 赋予 非常 高 的 优先 级 ， 最 后 调用 调度 程序 。 

底层 调度 执行 进程 启动 和 切换 ， 用 于 分 配 、 初 始 化 并 更 新 进程 控制 块 (Process Control Block ，PCB ) ， 
进程 控制 块 描述 了 每 个 进程 并 实现 切换 。 有 关 进 程控 制 的 内 容 将 会 在 9.6 节 中 进一步 阐述 ， 而 关于 调度 
将 会 在 9.7 节 中 进一步 讨论 。 


9. 4.1 分 层 操作 系统 


分 层 操作 系统 最 典型 的 例子 是 Linux 和 Android (其 本 身 就 是 在 Linux 内 核 上 分 层 的 )。 
图 9-3 所 示 为 操作 系统 如 何在 用 户 程序 (顶部) 和 硬件 (底部) 之 间 分 层 构建 系统 内 核 。 以 
一 个 EIA232 串口 设备 为 例子 。 硬 件 是 底部 中 “控制 台 ， 串 口 ” 区 块 的 一 部 分 。 这 由 内 核 中 的 
硬件 驱动 程序 提供 服务 ， 这 是 一 个 “字符 设备 ” 。 打 算 使 用 串口 的 用 户 程序 (在 图 中 项 部 ) 只 
需要 连接 到 一 个 名 为 “设备 控制 ”的 区 块 。 实 际 上 ， 用 户 程序 将 使 用 9.3.5 节 的 标准 open() 
函数 打开 一 个 特殊 的 文件 ， 然 后 使 用 read() 或 write() 函数 读 取 以 正常 方式 写 人 的 数据 。 在 
Linux 中 ， 与 硬件 接口 相关 的 文件 系统 中 存在 几 个 特殊 的 字符 设备 文件 节点 。 在 典型 的 Linux 系 
统 中 ,文件 名 为 /dev/ttys0 的 文件 (和 许多 其 他 文件 一 样 在 /dev 文件 夹 下 ) 用 于 连接 硬件 设 
备 。 因 此 ， 在 拥有 足够 的 安全 权限 的 前 提 下 ， 用 户 程序 将 会 打开 文件 /dewttys0 ， 写 人 几 个 字 
节 的 数据 然后 关闭 文件 ， 随 后 这 将 使 得 串 行 接口 输出 那 几 个 字 节 的 信息 。 

事件 的 确切 顺序 从 用 户 程序 调用 open() 函数 开始 。 这 是 一 个 操作 系统 的 调用 ， 它 会 提示 
操作 系统 首先 确定 是 否 人 允许 用 户 程 序 打 开 这 样 的 文件 〈 例 如 其 是 否 有 足够 的 安全 权限 ) 。 为 了 
达到 这 个 目的 ， 其 将 查看 文件 系统 以 检查 该 文件 的 安全 标志 一 一 Linux 文件 系统 中 的 每 个 文件 
都 具有 的 安全 标志 或 访问 该 文件 的 权限 。 同 时 它 还 会 查看 文件 的 类 型 。 在 这 种 情况 下 ， 文 件 是 
一 种 名 为 “字符 ”文件 的 特殊 类 型 。 一 个 字符 文件 有 着 两 个 与 其 相关 的 数字 ， 分 别称 为 主要 
数字 和 次 要 数字 ， 它 们 将 共同 指定 哪个 设备 驱动 处 理 该 种 文件 ， 以 及 什么 与 之 相关 (例如 存在 
几 个 串口 时 ， 用 哪 一 个 串口 ) 。 

至 此 ， 读 者 就 知道 了 用 户 程序 需要 打开 一 个 特定 的 文件 ， 它 有 着 足够 的 权限 打开 这 个 文 
件 ， 并 且 知 道 了 需要 哪个 设备 驱动 来 处 理 这 个 文件 ,内核 便 将 打开 的 请 求 传递 给 设备 驱动 来 
处 理 。 

每 个 设备 驱动 都 会 有 函数 来 处 理 打开 、 关 闭 、 读 写 这 些 功能 (而且 往往 还 有 更 多 ) 。 内 
核 只 需要 简单 地 把 用 户 文件 要 求 传 递 给 相应 的 设备 驱动 函数 。 每 个 设备 驱动 都 有 一 部 分 功 
能 用 以 处 理 用 户 程序 需求 ， 以 及 一 部 分 功能 处 理 底层 硬件 控制 。 因 此 内 核 横 跨 图 9-3 中 的 中 
间 层 。 

虽然 这 种 功能 可 能 看 上 去 不 重要 ， 但 这 种 允许 任何 用 户 能 够 打开 、 读 / 写 和 关闭 文件 ， 控 
制 硬 件 的 能 力 是 很 有 用 的 。 确 切 的 串口 品牌 、 复 杂 的 内 部 工作 和 时 间 都 由 操作 系统 负责 。 同 时 
这 种 架构 使 得 设备 驱动 的 代码 非常 规范 一 一 设备 驱动 间 的 代码 书写 往往 都 很 相似 。 

最 后 ，Linux 中 的 设备 驱动 往往 写作 可 加 载 的 内 核 模 块 。 它 们 通常 不 在 内 核 中 ， 当 需要 时 ， 
它们 再 加 载 插 入 内 核 中 。 有 时 在 完成 任务 后 将 会 自动 从 内 核 和 印 载 。 这 有 利于 保持 内 核 中 的 主要 
部 分 的 简洁 高 效 ， 同 时 使 得 功能 可 以 随 着 需求 扩展 或 缩减 。 
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图 9-3 ”Linux 操作 系统 的 分 层 特性 ， 顶 部 为 用 户 代码 ， 底 部 为 硬件 。 灵 感 来 自 0’ Reilly 
出 版 社 出 版 的 Alessandro Rubini 的 著作 Linux Device Drivers 中 的 一 张 相似 图 表 


9.4.2 ”客户 端 - 服 务 器 操作 系统 


在 客户 端 - 服务 器 操作 系统 中 ， 基 本 的 内 核 很 小 ， 而 且 仅 提 供 包 括 模块 间 通信 在 内 的 基本 
服务 。 大 部 分 功能 包含 在 模块 中 ， 每 一 个 都 对 应 处 理 系 统 功能 的 一 个 特定 方面 。 

图 9-4 所 示 为 微 核 (底层 ) 如 何 允 许 用 户 程 序 和 模块 间 的 通信 。 这 种 水 平 通信 过 程 与 
Linux 操作 系统 的 垂直 通信 过 程 很 像 ， 其 优点 为 规范 了 通信 信道 ， 缺 点 是 共享 通信 信道 会 带 来 
安全 隐患 。 





图 9-4 微 核 操 作 系统 图 所 示 为 通过 文件 系统 连接 客户 端 程序 
(用 户 代码 ) 和 设备 驱动 的 微 核 通 信 信 道 
Windows NTA2000AXP/Vista/7/8/10 有 一 部 分 面向 对 象 的 模块 ， 但 实际 上 是 客户 端 - 服务 
器 操作 系统 。 与 Linux 不 同 ， 程 序 员 并 不 提倡 钻研 Windows 操作 系统 的 核心 ， 因 此 它们 关于 内 
部 内 核 结构 的 信息 公开 程度 不 同 。 尽 管 方法 、 架 构 和 开放 程度 都 不 相同 ，Windows 依然 提供 了 
与 类 UNIX 操作 系统 基本 相同 的 打开 、 读 / 写 、 关 闭 的 功能 。 


9.5 启动 


严格 来 说 ， 启 动 并 不 属于 操作 系统 的 一 个 功能 ， 但 在 为 计算 机 供电 和 准备 执行 程序 之 间 ， 
操作 系统 与 事件 顺序 之 间 存 在 密切 关系 。 无 论 什么 尺寸 的 计算 机 ， 都 包含 了 非 易 失 性 存储 器 
(例如 闪存 或 HDD) 和 易 失 性 存储 器 〈 某 种 形式 的 RAM) 。 断 电 时 ， 易 失 性 存储 器 中 是 没有 内 
容 的 ， 因 此 为 计算 机 供电 时 需要 运行 在 非 易 失 性 存储 器 中 的 代码 来 启动 各 种 功能 。 从 加 电 到 系 
统 完全 运行 的 过 程 称 为 启动 。7. 8. 1 节 已 经 说 明了 在 示例 的 ARM 系统 中 启动 或 复位 向 量 中 的 
代码 如 何在 加 电 时 自动 执行 。 这 概述 了 在 特定 嵌入 式 系 统 中 需要 发 生 的 精确 事件 序列 ， 用 于 启 
动 引 导 加 载 程序 代码 。 同 一 节 内 容 中 还 说 明了 此 系统 中 引导 加 载 程序 的 作用 。 
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然而 计算 机 之 间 的 差异 很 大 ， 遵 循 精确 的 顺序 取决 于 CPU 的 类 型 、 使 用 的 引导 介质 ， 运 
行 哪 一 个 引导 加 载 程序 以 及 使 用 的 操作 系统 (如 果 可 行 的 话 ) 。 这 不 仅 是 因为 系统 间 的 巨大 差 
异 ， 而 且 由 于 许多 系统 有 着 大 量 的 配置 选项 。 本 节 将 会 从 相对 典型 的 嵌入 式 Linux 系统 的 软件 
角度 考虑 问题 。 在 此 将 分 别 研 究 系统 如 何 从 两 个 不 同 的 引导 介质 一 一 硬盘 驱动 (Hard Disc 
Drive，HDD) 和 并 行内 存 〈 非 易 失 性 存储 器 ， 通 常 是 NOR-flash 存储 器 的 一 种 ) 启动 。 从 软件 
的 角度 来 看 ， 固 态 硬盘 (solid-state disc) 的 工作 模式 与 HDD 是 类 似 的 ， 即 使 它 内 部 由 闪存 构 
成 〈 尽 管 往往 是 更 高 密度 的 NAND-flash 存储 器 ) 。 因 此 可 以 把 HDD 与 SSD 放 在 一 起 考虑 而 单 
独 考 虑 并 行内 存 。 

从 软件 的 角度 看 ， 任 意 的 能 入 式 Linux 系统 启动 时 ， 无 论 是 使 用 哪 种 引导 介质 ， 事件 顺序 
都 有 以 下 明确 的 步骤 : 

。 执行 引导 加 载 程序 ， 配 置 系统 以 准备 内 核 和 虚拟 内 存盘 〈ramdisk ) 。 

。 执行 内 核 ， 自 解压 缩 (如 果 被 压缩 了 ) 并 随后 设置 系统 内 存 和 硬件 。 

e 内 核查 找 硬 盘 图 像 ， 其 中 包含 了 根 文件 系统 。 找 到 后 ， 挂 载 它 并 执行 其 中 的 初始 化 

代码 。 

引导 加 载 程序 是 一 个 非常 底层 且 基 础 的 系统 功能 ， 其 查找 并 启动 内 核 前 配置 硬件 。7. 8. 1 
节 介 绍 了 一 种 常见 的 引导 加 载 程 序 ， 并 讲述 了 其 通常 的 特征 和 功能 。 那 一 节 里 的 ARM 通过 并 
行 办 存 启 动 ， 内 核 和 虚拟 内 存盘 都 是 被 压缩 的 。 

Linux 内 核 是 一 个 名 为 vmlinux 、bzimage 、zimage 或 类 似 的 可 执行 文件 ， 通常 主要 使 用 gzip 
( GNU zip) 、bzip2 或 xz 程序 进行 压缩 。 内 核 中 仅 有 开始 的 一 小 段 代码 没有 被 压缩 ， 其 中 就 包 
含 了 一 个 小 解压 器 。 内 核 开 始 被 执行 时 ， 这 一 小 段 代 码 把 内 核 剩 余 的 部 分 解压 到 RAM 中 ， 然 
后 计算 循环 匈 余 校 验 ( Cyclic Redundancy Check ，CRC) ， 这 是 一 种 确保 内 核 解压 缩 时 没有 出 错 
的 校 验 。 如 果 解 压 内 核 时 检测 到 错误 ， 内 核 会 简单 输出 CRC Error 到 控制 台 并 立即 在 该 点 中 断 。 
如 果 没 有 检测 到 错误 ， 代 码 就 会 立即 跳 转 到 新 的 压缩 的 内 核 代 码 并 继续 执行 解压 代码 。 

接着 ， 内 核 会 查找 内 存 或 HDD( 取决 于 配置 以 及 命令 行 参数 ) 中 特定 位 置 的 硬盘 图 像 ， 它 
可 以 挂 载 为 根 文件 系统 。 尽 管 有 众多 选项 ， 还 是 可 以 大 致 区 分 为 从 并 行内 存 启动 和 从 HDD/ 
SSD 启动 两 种 系统 。 

9. 5.3 节 中 会 测试 启动 后 发 生 的 状况 ， 而 在 此 之 前 ，9.5.1 节 和 9.5.2 节 将 会 分 析 这 两 种 
系统 启动 时 不 同 的 机 制 。 在 这 两 种 情况 下 ， 系 统 都 会 首先 关闭 以 清空 主 存储 器 ( RAM 的 某 种 
类 型 ) 。 随 后 本 书 会 对 这 两 种 情况 在 挂 载 虚拟 内 存盘 和 开始 执行 用 户 代码 之 前 的 过 程 进行 分 析 。 


9. 5.1 从 并 行 闪存 启动 


从 并 行 闪 存 启动 是 嵌入 式 Linux 系统 最 常用 的 启动 方法 ， 这 也 是 7. 8. 1 节 中 描述 的 方法 。 
为 了 更 详细 地 概括 这 一 过 程 ， 可 以 参考 图 9-5， 下 列 事件 顺序 发 生 : 

1) 系统 关闭 ，RAM 清空 ， 闪 存 包 含 引 导 加 载 程 序 、 压 缩 的 内 核 以 及 压缩 的 虚拟 内 存盘 。 

2) 接 通 电源 ，CPU 在 启动 向 量 处 开始 执行 (通常 在 ARM 上 的 地 址 为 0x0000 0000， 这 可 
以 是 跳 转 到 引导 加 载 程序 ， 也 可 以 是 引导 加 载 程序 的 起 始 位 置 ) 。 

3) 系统 执行 引导 加 载 程序 以 设置 硬件 并 配置 系统 内 存 (尤其 是 SDRAM ， 需 要 遵循 初始 化 
过 程 ) 。 通 常 系统 会 为 程序 员 提供 一 些 访问 配置 选项 的 方式 。 

4) 引导 加 载 程序 查找 闪存 中 的 压缩 内 核 并 复制 到 RAM。 

5) 执行 压缩 内 核 ， 内 核 自 解压 (在 进程 中 内 核 会 移动 到 RAM 中 别 的 位 置 ) 。 

6) 内 核 完成 系统 设置 并 查找 闪存 中 的 压缩 的 虚拟 内 存盘 ， 将 其 解压 到 RAM 中 。 

7) 虚拟 内 存盘 挂 载 为 根 文件 系统 ，Linux 的 init 进程 开始 执行 。 
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图 9-5 从 并 行 闪 存 启 动 嵌 入 式 Linux 系统 的 三 个 阶段 。 图 9-6 所 示 为 从 HDD/SSD 启动 系统 


如 图 9-5 所 示 的 最 后 一 个 阶段 是 所 有 操作 都 从 RAM 中 进行 。 根 文件 系统 是 一 个 在 RAM 中 
的 虚拟 内 存盘 ， 内 核 从 RAM 运行 ， 运 行 代码 的 系统 内 存 同 样 在 RAM 中 。 系 统 启动 并 运行 时 ， 
通常 不 使 用 内 存 。 

尽管 这 种 做 法 看 起 来 会 很 浪费 资源 ,但 其 实 非 常 实用 。 内 核 和 虚拟 内 存盘 压缩 存储 ， 需 要 
解压 来 执行 (解压 需要 读 写 存储 系统 ， 而 唯一 足够 大 的 空间 就 在 RAM ) 。Linux 上 的 根 文件 系 
统 同样 需要 读 写 ， 内 核 也 一 样 (例如 支持 可 加 载 的 内 核 模块 )。 尽 管 有 这 些 要 求 ， 仍 然 有 许多 
替代 选项 ， 包 括 把 文件 系统 分 为 读 - 写 和 只 读 部 分 以 及 存储 一 个 未 压缩 的 内 核 并 直接 执行 〈( 对 
于 Linux 可 能 比较 难 , .但 对 一 些 更 小 的 区 入 式 操作 系统 会 很 简单 )。 


9.5.2 从 HDD/SSD 启动 


对 于 更 大 的 Linux 系统 ， 从 HDD 启动 是 更 常见 的 方法 ， 这 源 自 标准 的 个 人 计算 机 。 下 面 介 
绍 了 一 个 基于 Intel Atom 的 嵌入 式 系统 的 启动 过 程 ， 在 现代 台式 机 上 运行 Linux 的 过 程 基本 是 
一 样 的 。 实 际 上 从 SSD 甚至 USB 连接 的 闪存 (假设 BIOS 支持 ) 启动 都 有 着 与 之 相同 的 过 程 。 
如 图 9-6 所 示 为 启动 过 程 ， 该 过 程 将 在 RAM 中 执行 内 核 时 的 以 硬盘 图 像 作为 根 文件 目录 视 为 
结束 标志 。 

1) 系统 关闭 ，RAM 清 室 ，HDD 包含 引导 加 载 程序 、 压 缩 的 内 核 以 及 硬盘 图 像 ， 这 可 能 在 
一 个 单独 的 硬盘 分 区 。 

2) 接 通 电源 ，CPU 在 包含 (或 重 定向 到 ) 基本 输入 输出 系统 (Basic Input Output System， 
BIOS) 的 启动 向 量 处 开始 执行 

3) 系统 执行 BIOS， 它 可 以 设置 硬件 、 配 置 系统 内 存 而 且 通 常 还 会 给 用 户 提供 一 些 方式 访 
问 配置 选项 。BIOS 还 会 配置 存储 介质 ， 这 可 以 是 硬盘 (或 者 固态 硬盘 ) 、USB 连接 的 闪存， 其 
至 通过 网 络 启动 。 典 型 的 情况 是 从 HDD 启动 ， 因 此 首先 需要 设置 硬盘 控制 

4) BIOS 在 选择 的 存储 介质 上 查找 主 引 导 记 录 (MBR) 。 这 是 光盘 的 一 个 特别 组 织 的 部 分 ， 
它 指示 BIOS 从 硬盘 运行 哪个 程序 。 

5) 从 这 一 点 开始 ， 系 统 可 以 运行 任何 程序 ,但 通常 会 执行 引导 加 载 程序 ， 例 如 GRUB、 
LILO 或 syslinux。 这 些小 程序 和 之 前 提 及 的 更 小 的 嵌入 式 系统 的 引导 加 载 程序 很 相似 ， 但 就 它 
们 支持 的 介质 而 言 通常 具有 更 强大 的 功能 
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图 9-6 从 HDD、SSD 甚至 USB 连接 的 闪存 启动 府 和 人 式 Linux 系统 的 
三 个 阶段 。 图 9-5 所 示 为 从 并 行 闪 存 启动 系统 

6) 执行 引导 加 载 程序 ， 查 找 HDD 上 压缩 的 内 核 ， 复 制 到 RAM 中 

7) 执行 压缩 的 内 核 ， 内 核 自 解压 (在 进程 中 内 核 会 移动 到 RAM 中 别 的 位 置 ) 。 

8) 内 核 完 成 系统 设置 并 查找 根 文件 系统 (Root File System，RFS) ， 通 常 位 于 HDD 的 单独 
部 分 。 

9) 挂 载 根 文件 系统 ，Linux 的 init 进程 开始 执行 

引导 系统 是 可 配置 的 ， 可 以 实现 很 多 功能 ， 此 处 只 是 介绍 最 常见 的 一 种 。 有 趣 的 是 ,在 
RFS 里 通常 (但 不 是 总 是 ) 能 找到 压缩 内 核 ， 所 以 在 步骤 6 中 ,引导 加 载 程序 在 被 挂 载 前 就 会 
从 RFS 被 读 取 


9. 5.3 启动 之 后 


启动 之 后 ， 内 核 (加 上 所 有 必需 的 内 核 模块 和 进程 ) 已 启动 并 将 正常 运行 。 对 于 Linux 来 
说 ， 根 目录 系统 必须 存在 (9. 8. 3.2 节 将 有 对 根 目录 重要 性 更 深入 的 阐述 )。 更 大 型 的 操作 系 
统 通常 也 会 要 求 具 有 文件 系统 ， 但 一 些 像 VxWorks 和 pC/OS 这 种 小 的 操作 系统 更 可 能 会 把 所 
有 功能 和 操作 软件 打包 放 进 一 个 单一 的 整体 可 执行 文件 。 尽 管 这 会 占用 内 核 的 空间 ， 但 不 需要 
单独 的 RFS 会 使 得 在 开发 新 的 藤 入 式 系 统 时 更 方便 使 用 。 相 应 地 这 也 会 导致 即使 有 一 点 操作 代 
码 需 要 改动 ， 整 个 操作 系统 就 需要 重建 并 重新 加 载 ， 严 重 影响 了 操作 系统 的 灵活 性 ( Linux 内 
核 建立 后 一 旦 开始 工作 ， 当 RFS 中 的 代码 被 修改 和 开发 时 内 核 将 保持 不 变 ) 。 

回顾 一 下 ， 对 于 舱 入 式 Linux， 启 动 后 的 情况 为 : 

。 内 核 加 载 ， 解 压缩 到 RAM 中 并 运行 。 

。 解压 的 虚拟 内 存盘 或 HDD 部 分 挂 载 为 根 目 录 系 统 (给 出 根 (/) 目录 和 其 下 面 的 所 有 

文件 ) 。 

接着 内 核查 找 init 进程 以 执行 。 在 大 多 数 嵌 人 式 系统 中 ，init 是 Busybox 的 一 部 分 。 
Busybox 是 一 个 神奇 的 可 执行 文件 ， 包 含 所 有 UNIX 工具 程序 、 实 用 程序 和 底层 助手 应 用 程序 。 
Busybox 开发 者 把 它 称 为 “操作 系统 的 瑞士 军刀 ”， 这 并 没有 夸张 。 在 桌面 和 更 大 的 系统 上 ， 
init 是 一 个 独立 的 程序 。 无 论 在 哪 种 启动 方式 下 ， 它 只 有 一 个 任务 ， 就 是 读 取 可 以 启动 别 的 程 
序 的 配置 脚本 。 此 时 在 用 户 空间 系统 还 不 是 多 任务 的 ; 在 init 开始 执行 它 的 配置 脚本 后 ， 系 统 
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才 开 始 运行 用 户 代 码 。 

因为 init 非常 重要 ， 内 核 设 置 了 当 无 法 找到 init 程序 在 文件 系统 中 正确 的 位 置 时 内 置 的 备 
份 策略 。 这 包括 查找 不 同 的 位 置 以 及 最 终 备 用 方法 ， 启 动 默认 的 系统 shell (Zbinysh) 。 尽 管 新 
手 垦 入 式 系统 开发 人 员 可 能 会 破坏 init 或 其 配置 脚本 (有 些 开 发 者 还 破坏 了 不 止 一 次 ) ， 此 时 
还 是 假设 一 切 工 作 依 然 顺利 进行 。 

启动 配置 脚本 的 文件 名 和 位 置 通常 为 /etc/inittab (之 后 可 以 看 到 许多 Linux 的 配置 材料 都 
位 于 /ete 目录 ) ， 这 是 一 个 人 类 可 读 的 文本 文件 。 

init 找到 /ete/inittab 文件 后 便 会 开始 执行 文件 中 指定 位 操作 。 虽 然 具体 的 /etevinittab 文件 
里 的 内 容 取决 于 具体 在 使 用 的 init 程序 ， 不同 的 台式 机 和 骨 人 式 系统 之 间 是 不 一 样 的 ， 但 租 信 
式 系统 Busybox 运行 的 典型 inittab 文件 如 下 所 示 : 


::Sysinit:/etc/init.d/rcs 


草 太 


Put a getty on the serial line (for a terminal) 
:respawn:/sbin/getty -L ttyS0 115200 vt100 


间 ，… 


Set up a main console 
:askfirst:/bin/sh 


:并 


Restarting the init process when needed 
:restart:/sbin/init 


， 间 六 


划 划 


Before rebooting, run this 
::Ctrlaltdel:/sbin/reboot 


在 此 并 不 需要 详细 解释 文件 内 容 ， 此 列表 显示 了 系统 初始 化 的 单独 部 分 (第 一 行 ) 以 及 
重新 引导 时 要 执行 的 操作 (最 后 一 行 )。 以 # 开 头 的 行 是 注释 。 该 脚本 指定 了 在 第 一 个 串口 / 
dev/ttyS0 上 运行 的 串 行 接 口 ( 称 为 电 传 终端 或 TTY) 、 主 要 的 控制 台 以 及 必要 时 重新 启动 init 
进程 的 操作 〈 例 如 崩溃 时 ) 。 串 行 线路 的 respawn 命令 意味 着 如 果 进 程 终止 或 崩溃 ， 则 重新 启 
动 进程 ， 另 外 只 有 当 用 户 通过 按键 “请 求 ”respawn 命令 时 ， 主 控制 台 的 askfirst 命令 才 会 启动 
它 。 在 这 些 情况 下 ， 该 脚本 调用 其 他 程序 例如 /sbin/getty、/sbin/reboot/ 、/bin/sh， 但 主要 任务 
是 运行 系统 启动 代码 /etc/init. d/reS。 

/etc/init. d/reS 是 标准 的 shell 脚本 ， 以 系统 的 shell 语言 写 人 ， 开 发 者 可 以 编辑 它 来 改变 系 
统 的 启动 行为 。 通 常 ， 软 件 开 发 者 不 会 被 允许 直接 编辑 或 改变 /etc/inittab, 但 可 以 修改 /etc/ 
init d/reS 来 更 改 启动 后 的 序列 和 任务 。 这 些 任务 包括 打印 欢迎 信息 、 设 置 网 络 以 及 启动 主要 
的 系统 程序 。 

台式 机 上 ， 系 统 首先 开始 连接 到 因特网 ， 并 运行 必要 的 代码 以 允许 不 同 的 用 户 “登录 ” 
系统 ， 这 是 最 终 启动 GUI 的 地 方 。 从 软件 层面 来 说 ， 这 是 “用 户 空 间 ” 的 起 点 ， 至 此 一 切 都 
是 从 “内 核 空间 运行 的 ”。 


9.6 进程 

运行 的 操作 系统 可 以 看 作 一 组 竞争 CPU 时 间 的 活动 。 其 中 一 些 活动 代表 系统 工作 ， 以 管 
理 和 维护 自己 ， 其 他 活动 则 为 系统 用 户 工 作 。 大 部 分 (但 并 非 总 是 如 此 ) 系统 活动 是 内 核 的 
一 部 分 ， 而 其 他 活动 通常 称 为 进程 。 从 9.3.3 节 可 以 知道 ， 进 程 可 以 被 认为 是 一 种 运行 程序 
(或 者 更 准确 地 说 ， 是 运行 “任务 ”， 因 为 有 些 程序 是 编写 的 ， 所 以 它们 分 成 单独 的 独立 任务 ) 
的 容器 。 对 于 对 进程 感 兴趣 的 用 户 ， 大 多 数 进 程 是 “可 见 ” 的 ,并 且 可 以 在 计算 机 系统 上 查 
看 ， 如 框 9. 2 所 示 。 





时 二 了 解 进程 

大 多 数 操作 系统 都 提供 了 观察 不 同 进程 活动 的 方法 ， 包 括 桌 面 系统 以 及 运行 在 Android 和 1i0S 上 的 移 
动 系统 。 

在 Windows 计算 机 上 ， 工 作 时 ， 用 户 可 以 按 下 Ctrl + Alt + Del 并 选择 “进程 ”来 查看 当前 运行 的 进 
程 。 任 意 基于 UINX 的 系统 ,例如 Linux、FreeBSD 及 MacOS-X 可 通过 ps 命令 (还 有 几 个 其 他 的 方法 ， 包 
括 通过 GUI 或 者 在 Linux 中 检查 /proc 目录 ) 查看 类 似 的 信息 。 

在 终端 执行 ps ax 命令 可 以 列 出 所 有 进程 ，2015 Apple laptop (运行 着 10. 12.4 版 本 的 macOS Sierra ) 
给 出 了 大 约 370 行当 前 运行 的 进程 。 前 20 行 (ps ax 1head -20) 如 下 所 示 (有 几 行 很 长 的 信息 截断 


为 “...”; 另外 ， 出 于 安全 考虑 ， 有 两 行 信息 被 删除 了 ) : 
PID TT STAT TIME COMMAND 
二 32 Bs 65:00.11 /sbin/launchd 
54 ?3? Ss 5:38.85 /usr/libexec/UserEventAgent (System) 
55 ‘2 Ba 2:10.75 /usr/sbin/syslogd 
57 ?2? Ss 0:49.64 /System/Library/PrivateFrameworks/... 
58 ?? Ss 3:27.56 /usr/libexec/kextd 
59 ?2? Ss 9:11.41 /System/Library/Frameworks/... 
61 ?3? Ss 1:13.64 /opt/cisco/anyconnect/bin/vpnagentd ... 
62 ?? Ss 1:26.20 /System/Library/PrivateFrameworks/... 
66 ?? Ss 0:10.86 /System/Library/CoreServices/... 
67 ?? Ss 4:44.88 /usr/libexec/configd 
68 ?? Ss 2:15.04 /System/Library/CoreServices/... 
69 ?? Ss 0:22.23 /usr/libexec/mobileassetd 
76 ?? Ss 51:48.19 /usr/libexec/logd 
80 ?? Ss 42:34.00 /usr/libexec/airportd 


82 ?3? SNs 0:07.67 /usr/libexec/warmd 
83 ?2 ‘Ss 22:28.61 /System/Library/Frameworks/... 





88 ?3? Ss 0:02.55 /System/Library/CoreServices/... 
在 基于 Linux 的 系统 中 ,列表 中 的 第 一 行 会 是 init, 但 其 他 行 的 格式 很 相似 正在 执行 许多 系统 和 
库 代 码 。 


进程 、 处 理 器 和 并 发 


任何 计算 机 系统 都 会 包含 一 个 或 多 个 进程 运行 的 处 理 器 。CPU 是 最 典型 的 处 理 器 ， 而 且 它 
们 很 可 能 不 止 一 个 。 

一 个 多 核 机 器 可 能 有 多 个 CPU， 每 个 CPU 又 包括 几 个 处 理 器 核心 (每 个 核心 是 一 个 单独 
的 处 理 器 ，5. 8. 1 节 中 有 更 详细 的 介绍 ) 。 其 他 处 理 器 包括 内 置 的 CPU 和 专用 的 加 速 硬 件 (第 
5 章 中 有 相关 阐述 ) 。 从 iPhone 到 PlayStation 4， 这 些 设 备 实际 上 都 是 多 处 理 器 机 器 。 

对 于 个 进程 ， 如 果 机 器 最 多 有 N 个 处 理 器 ， 则 这 些 进程 可 以 随时 同时 运行 〈 虽 然 实际 
上 还 有 很 多 进程 处 于 可 运行 状态 ， 等 待 着 它们 的 执行 ) 。 

简单 来 说 ， 并 发 是 指 多 个 进程 同时 处 于 活动 状态 。 然 而 在 单 CPU 机 器 上 ， 这 只 是 操作 系 
统 产生 的 一 种 错觉 。 进 程 “ 认 为 ”它们 是 在 连续 运行 ， 但 实际 上 它们 是 在 快速 地 打开 和 关闭 ， 
这 在 9. 3.3 节 中 进行 了 探讨 。 在 现代 操作 系统 中 ， 这 种 切换 是 自然 的 和 不 可 预测 的 。 程 序 无 法 
预测 自己 什么 时 候 在 运行 ， 什 么 时 候 在 等 待 。 在 多 核 机 器 中 ， 因 为 有 多 个 处 理 器 ， 程 序 才能 经 
历 真 正 的 并 发 〈 而 不 仅 是 错觉 ) ， 但 进程 还 是 不 断 在 打开 和 关闭 ， 且 进程 对 此 并 没有 意识 。 
图 9-7 所 示 为 一 组 任务 在 单 核 和 双核 系统 上 执行 的 情况 。 两 种 情况 下 任务 都 在 同一 个 时 间 变 为 
可 运行 状态 ,并且 占 用 的 CPU 时 间 也 相近 。 但 与 预期 一 样 ， 双 核 系统 更 轻易 地 完成 了 任 
务 一 一 可 能 是 由 于 更 少 的 任务 切换 操作 。 尽 管 任务 切换 的 速度 非常 快 ， 但 仍然 占用 了 有 价值 的 
CPU 时 间 ， 所 以 减少 切换 所 花费 的 时 间 是 一 个 很 好 的 提升 效率 的 方法 。 

为 了 解决 并 行 问题 ， 进 程 和 处 理 器 需要 通过 某 种 方法 来 通信 以 达到 同步 的 效果 (例如 共享 
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数据 ) ， 因 此 这 些 活动 需要 成 为 任意 操作 系统 的 核心 。 

从 计算 机 科学 的 角度 来 看 ， 探 讨 并 发 性 还 需要 注意 两 个 问题 。 

1. 互 斥 

当 超 过 一 个 进程 竞争 一 个 共有 但 不 共享 的 资源 (例如 更 新 一 个 文件 ， 用 打印 机 打印 一 页 或 
者 单独 一 个 CPU) ， 这 些 进程 就 会 互 斥 (mutual exclusion ， 通 常会 简写 为 mutex) 访问 。 互 斥 意 
味 着 这 些 进程 中 只 有 一 个 可 以 访问 该 资源 。 

想象 一 下 当 两 个 进程 都 试图 用 打印 机 打印 一 页 内 容 时 没有 互 斥 一 一 这 会 得 到 半 页 从 一 个 程序 
打印 出 来 的 内 容 ， 半 页 从 另 一 个 程序 打印 出 来 的 内 容 。 如 果 操 作 系统 可 以 强制 互 斥 ， 那 么 它 可 以 
授予 第 一 个 程序 独占 访问 权限 ， 直 到 该 程序 完成 打印 ， 然 后 才 人 允许 第 二 个 程序 访问 并 进行 打印 。 


一 块 CPU 的 机 器 










在 CPU a 上 运行 
在 CPU b 上 运行 


时 间 
图 9-7 单 核 和 双核 计算 机 上 执行 两 个 任务 的 概况 。 对 于 前 者 ， 任 务 在 可 运行 状态 (等待 执行 ) 花费 了 
更 多 时 间 。 在 两 种 情况 下 两 个 任务 的 实际 CPU 占用 时 间 是 相似 的 ， 但 从 首次 变 成 可 运行 状态 到 
任务 结束 所 经 过 的 时 间 差别 就 很 大 了 
互 斥 是 一 种 可 以 由 内 核 在 外 部 任务 上 强制 执行 的 禁止 〈 实 际 上 也 可 以 在 内 核 内 部 对 外 部 任 
务 执行 共享 资源 ) 。 
2. 同步 
互 斥 需要 任务 间 通 信 实 现 同步 ， 而 同步 通常 由 操作 系统 提供 。 除 了 互 斥 的 情况 ， 合 作 任务 
也 需要 确保 进程 的 顺序 。 进 程 同 步 是 一 种 进程 在 执行 时 要 求 另 一 个 进程 到 达 特 定 的 点 的 行为 。 
它 是 一 个 进程 活动 ， 为 另 一 个 进程 提供 工作 ， 或 者 一 个 进程 为 另 一 个 进程 设置 某 个 进程 并 等 到 
完成 后 再 继续 。 
同步 任务 的 方法 非常 多 ， 包 括 信 号 量 (信号 ) 传输 和 邮箱 。 信 号 量 是 由 Edsger Dijkstra 开 
发 的 (因此 最 常见 的 形式 称 为 Dijkstra 信号 量 ) 。 信 和 号 量 非常 简单 ， 但 事实 上 却 能 完成 非常 复 
杂 的 功能 。 


9.7 调度 

绝 大 多 数 现代 操作 系统 是 多 任务 或 多 进程 运行 的 ， 这 需要 一 个 方法 决定 哪个 任务 在 特定 的 
时 间 在 CPU 上 运行 。 所 以 需要 一 个 方法 告诉 CPU 要 执行 哪个 任务 以 及 执行 完 后 要 执行 的 下 一 
个 任务 。9. 3.3 节 虽 然 介绍 了 任务 切换 的 内 容 ， 但 还 未 考虑 操作 系统 要 如 何 决定 在 特定 的 时 间 
执行 哪个 任务 。 框 9. 2 解释 了 一 个 进程 列表 ， 显 示 了 有 关 每 个 进程 的 各 种 信息 ， 但 没有 把 这 些 
与 任务 (进程 ) 切换 联系 在 一 起 。 同 时 框 9. 1 关注 了 操作 系统 ， 提 及 了 调度 的 最 重要 的 功能 。 
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这 包括 底层 的 调度 ,但 目前 还 没 详细 分 析 操 作 。 

调度 作为 操作 系统 的 一 部 分 控制 着 任务 切换 ， 常 被 比喻 为 操作 系统 跳动 的 心脏 。 
调度 程序 

底层 调度 控制 着 进程 的 启动 、 切 换 以 及 终止 ， 其 遵循 着 复杂 的 决策 过 程 来 决定 在 哪个 时 间 
运行 哪 一 个 进程 。6. 4. 4 节 中 有 很 清晰 的 阐述 ， 进 程 有 三 种 状态 : 运行 、 可 运行 和 休眠 。 休 眼 
的 进程 并 未 准备 好 执行 ， 它 们 等 待 着 一 些 事件 的 触发 或 者 一 些 资源 空 出 来 一 一 通常 它们 等 待 别 
的 进程 的 信号 量 或 信和 号。 可 运行 进程 是 那些 已 经 准备 好 CPU 时 间 并 且 一 旦 人 允许 就 可 以 被 立即 
执行 的 进程 。 运 行 中 的 进程 是 当前 被 分 配 到 CPU 时 间 并 因此 正在 被 积极 执行 的 进程 。 机 器 中 
的 运行 进程 不 会 超过 CPU 或 内 核 的 数目 。 

通过 测试 进程 的 启动 可 以 了 解 调度 程序 的 作用 ， 它 可 以 被 视 为 一 种 特殊 的 切换 情况 。 

1. 进程 启动 

启动 新 的 进程 时 ， 调 度 程序 首先 分 配 一 个 数据 结构 用 来 保持 追踪 进程 并 进行 管理 。 这 种 数 
据 结构 以 进程 控制 块 (Process Control Block，PCB) 的 形式 被 调度 程序 创建 创建 时 它 是 空 的 
并 在 之 后 初始 化 ， 随 后 将 用 于 调度 以 及 提供 进程 列表 中 显示 的 原始 信息 ， 如 框 9.2 中 的 信息 
所 示 。 

一 个 PCB 有 时 也 会 被 认为 是 一 个 进程 描述 符 ， 维 持 每 个 进程 的 生命 周期 ， 其 包含 的 信息 
包括 : 
保存 硬件 寄存 器 (寄存 状态 ) 的 上 下 文 。 

所 属 者 信息 。 

进程 名 字 和 编码 。 

特权 (可 能 有 几 组 ) 。 

当前 状态 〈 停 止 / 运 行 / 可 运行 )。 

CPU 时 间 ， 占 用 的 时 间 。 

资源 占用 率 (例如 内 存 、 打 开 的 文件 )。 
资源 限制 。 

。 静态 优先 级 和 动态 优先 级 。 

进程 自身 并 不 能 访问 到 PCB， 事实 上 在 用 户 空间 根本 无 法 直接 访问 ， 这 仪 在 内 核 中 使 用 。 
调度 程序 读 取 这 个 模块 ， 使 用 其 中 的 信息 来 做 出 决策 ， 并 负责 更 新 它 。 在 进程 开始 时 ， 调 度 程 
序 还 需要 为 新 进程 授予 一 个 专用 的 内 存 空间 来 运行 (这 里 面 其 实 包 含 了 几 个 方面 ， 包 括 代 码 和 
工作 变量 ) ， 并 且 执 行 在 其 分 配 的 内 存 区 域内 定位 进程 代码 所 需要 的 内 存 副 本 。 

一 旦 进程 设置 完毕 ,调度 程序 添加 更 新 的 初始 化 PCB 到 可 运行 进程 列表 ， 并 且 更 新 其 他 
系统 表 来 占用 新 的 进程 和 其 所 需 的 资源 。 

2. 进程 切换 一 一 切换 时 机 

在 单 CPU 的 机 器 上 ， 如 果 CPU 上 正在 执行 某 些 进程 ， 这 时 是 无 法 运行 别 的 代码 的 〈 机 器 
中 只 有 CPU 可 以 执行 代码 )。 如 果 调 度 程序 自身 没有 在 执行 ， 它 就 不 能 终止 或 影响 当前 的 进 
程 。 因 此 除非 某 些 事 件 介 入 或 发 生 ， 当 前 的 进程 会 一 直 在 CPU 上 执行 一 一 如 果 代 码 包 含 无 限 
循环 ， 则 该 进程 会 一 直 运 行 。 

上 述 的 “事件 介入 或 发 生 ” 是 指 当前 的 代码 调用 一 个 系统 级 的 函数 ， 例 如 write() 或 者 
malloc() ， 又 或 者 系统 中 的 硬件 定时 器 产生 的 中 断 。 系 统 级 的 函数 由 内 核 处 理 ， 它 的 中 断 服务 
也 由 内 核 提 供 。 两 个 事件 中 ， 某 些 内 核 代 码 在 执行 时 ， 在 返回 到 发 起 调用 的 进程 前 ， 内 核 会 试 
图 执行 调度 程序 函数 。 调 度 程 序 通常 首先 会 处 理 中 断 ， 之 后 处 理 系统 级 函数 或 内 置 内 核 函 数 ， 
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最 终 允 许 其 中 一 个 可 运行 进程 的 执行 。 

在 计算 机 的 常用 操作 中 ， 似 乎 会 有 多 个 程序 (进程) 在 同时 运行 ， 其 中 调度 程序 会 比 其 
他 代码 执行 频率 高 很 多 。 调 度 程 序 在 任何 中 断 出 现 的 时 候 都 会 运行 ， 包 括 定时 器 中 断 (例如 微 
秒 定 时 器 在 每 微 秒 都 会 发 出 一 次 中 断 ) 时 以 及 系统 级 函数 运行 时 一 一 其 中 包含 系统 任何 形式 的 
输入 输出 、 任 意 文件 的 处 理 以 及 网 络 操 作 。 

一 些 早期 的 多 任务 操作 系统 使 用 时 间 分 片 的 方法 ， 由 时 间 来 触发 中 断 。Micerosoft Windows 
早期 的 多 任务 版 本 每 100ms 就 会 中 断 一 次 来 运行 调度 程序 。 这 个 时 间 是 可 设置 的 ，100ms 接近 
于 人 类 可 感知 的 最 短 延 时 的 同时 并 不 会 对 操作 造成 困扰 。 例 如 按 下 一 个 按键 需要 100ms 获得 反 
应 比 需要 200ms 获得 反应 会 更 舒适 ， 然 而 人 类 几乎 无 法 区 分 10ms 的 延迟 和 50ms 的 延迟 。 据 推 
测 ， 这 是 为 了 改善 人 机 交互 体验 。 不 幸 的 是 ， 实 际 上 这 种 延迟 太 长 了 ， 以 至 于 计算 机 无 法 获得 
实时 操作 能 力 ， 而 延迟 太 短 的 话 无 法 提高 效率 。 这 些 系统 因 低 效 而 著称 ， 并 且 很 快 就 被 更 快 的 
定时 器 和 如 系统 级 函数 调用 这 种 事件 触发 结合 的 系统 取代 。 

3. 进程 切换 一 一 切换 方法 

进程 切换 最 重要 的 部 分 大 概 就 是 决定 处 理 器 接 下 来 要 处 理 哪 一 个 进程 (在 多 核 或 多 CPU 
系统 中 可 能 不 止 一 个 进程 ) 。 进 程 切换 不 会 一 直 触 发 ， 有 时 当前 的 进程 有 足够 高 的 权限 连续 运 
行 ， 在 这 种 情况 下 ， 进 程 可 以 从 中 断 处 恢复 。 当 进程 切换 时 ， 调 度 程序 首先 选择 运行 的 下 一 个 
进程 ， 随 后 把 当前 进程 的 上 下 文 (状态 ) 保存 到 PCB 中 。 接 着 在 将 控制 权 传递 给 当前 进程 以 
人 允许 它 执行 之 前 ， 调 度 程 序 加 载 选 择 的 程序 的 上 下 文 (状态 ) ， 使 其 成 为 当前 进程 。 

4. 进程 切换 一 一 选择 下 一 个 进程 

不 同 的 操作 系统 有 着 不 同 的 方式 选择 下 一 个 要 运行 的 进程 。 这 涉及 实时 操作 系统 的 调度 理 
论 ( 详 见 6.4.4 节 以 及 框 6.4)，, 但 在 通用 计算 机 中 往往 更 实际 。 在 大 多 数 情 况 下 ， 除 了 简单 
的 循环 调度 ， 下 一 进程 的 选择 取决 于 可 运行 进程 中 的 相对 优先 度 。 

优先 级 由 以 下 几 个 因素 组 成 : 

。 基本 优先 级 (重要 )。 

。 紧迫 性 (时 间 标 准 )。 

。 之 前 的 资源 使 用 情况 。 





。 性 能 。 

。 正在 使 用 的 资源 。 

在 Linux 中 ， 调 度 程序 运行 时 ， 它 会 根据 当前 的 调度 策略 的 动态 优先 度 从 一 组 可 运行 任务 
中 选择 将 要 运行 的 程序 。 


Linux 的 函数 sched_setscheduler() 为 指定 的 程序 定义 了 调度 策略 和 参数 (通过 其 进程 标识 
符 或 PID 指定 ) 。 任 何 用 户 (具有 root 访问 权限 ) 可 以 在 自己 的 程序 里 调用 这 个 函数 来 改变 调 
度 方式 。 虽 然 更 多 的 Linux 仁和 人 式 版 本 和 其 他 变种 定义 了 各 种 替代 方案 ， 但 标准 的 Linux 中 三 
种 基本 的 调度 策略 如 下 : 

。 SCHED_OTHER 是 默认 的 分 时 抢占 式 调度 程序 。 它 使 用 静态 进程 nice 级 别 和 计数 器 来 
确定 每 个 进程 等 待 的 时 间 ， 以 定义 动态 优先 级 (这 样 动 态 优先 级 就 增加 了 进程 等 待 的 
时 间 )。 

SCHED_FIFO 是 先进 先 出 的 非 抢占 非 时 间 调 度 程序 ， 它 将 首先 运行 高 优先 级 的 进程 ， 
然后 再 允许 新 的 可 运行 进程 抢占 低 优先 级 进程 。 

SCHED_RR 和 上 述 的 SCHED_FIFO 类 似 , 但 其 包含 了 循环 功能 ， 因 此 高 优先 级 的 进程 
不 会 直接 运行 完毕 ， 而 是 时 分 地 让 其 他 进程 可 同时 运行 。 

5. 改变 进程 优先 级 

在 如 Linux、FreeBSD 以 及 MacOS-X 等 基于 UNIX 的 操作 系统 中 ， 系 统 用 户 可 以 使 用 名 为 nice 
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的 命令 行 工 具 。 当 在 shell 提示 符 下 使 用 时 ， 它 可 以 运行 程序 并 将 其 基本 优先 级 设置 为 -20 ~19 
的 40 个 级 别 之 一 。 例 如 : 


nice ./myPprog -5 


名 为 renice 的 程序 与 上 述 的 nice 类 似 ， 在 当前 用 户 拥 有 足够 的 安全 权限 改变 所 选 进 程 的 优 
先 级 的 前 提 下 ， 通 过 在 程序 的 PID 中 指定 优先 级 ， 可 以 改变 运行 进程 的 优先 级 。 需 要 注意 ， 
nice 程序 并 不 会 为 自身 保留 所 有 CPU 时 间 ， 因 此 可 以 降低 PID 232 的 niceness: 


renice -9 232 


然后 它 的 优先 级 实际 上 会 增加 ， 因 为 它 已 经 没 那么 “友好 ”， 将 被 分 配 更 多 CPU 时 间 。 相 反 ， 
如 果 把 niceness 增加 到 + 19 ， 它 就 会 变 成 一 个 非常 “友好 ”的 程序 ， 从 而 与 其 他 程序 分 享 更 多 
CPU 时 间 ， 也 就 运行 得 更 慢 。 实 际 上 ， 更 “友好 ”的 进程 比 起 不 那么 “友好 ”的 进程 更 愿意 
分 享 CPU 时 间 。 

如 果 读 者 热衷 于 在 自己 的 计算 机 上 试验 调度 过 程 和 优先 级 ，sched_setscheduler() 手册 页 会 
及 时 发 出 如 下 警告 : 

“As a non-blocking endless loop in a process scheduled under SCHED_FIFO or SCHED_RR will 
block all processes with lower priority forever，a software developer should always keep available on the 
console a shell scheduled under a higher static priority than the tested application. 

This will allow an emergency kill of tested real-time applications that do not block or terminate as 
expect. ” 

(作为 在 SCHED_FIFO 或 SCHED_RR 下 调度 的 进程 中 的 非 阻 塞 无 限 循环 将 永远 阻止 具有 较 
低 优先 级 的 所 有 进程 ， 软 件 开 发 人 员 应 始终 在 控制 台 上 保持 在 比 测试 的 应 用 程序 更 高 的 静态 优 
先 级 下 调度 的 shell。 

这 将 允许 紧急 杀 死 未 按 预期 阻止 或 终止 的 经 过 测试 的 实时 应 用 程序 。) 


9. 8 存储 与 文件 系统 


就 常用 的 计算 机 架构 而 言 ， 快 速 而 易 失 的 主 存 是 考虑 内 存 时 的 经 典 方法 。 这 是 用 于 工作 堆 
栈 的 主 内 存 ， 同 时 也 用 于 运行 程序 存储 变量 。 二 级 存储 会 比较 慢 ， 但 更 大 并 提供 半 永 久 性 记 
忆 。cache 存储 器 有 时 候 会 被 认为 是 第 三 类 存储 器 (可 参见 4.4 节 ) ， 它 较为 快速 ， 通 常 也 比较 
昂贵 ， 存 储 空间 较 小 ， 用 于 减少 较 大 、 较 慢 内 存 的 平均 访问 时 间 。 使 用 cache 可 以 加 速 较 慢 但 
较 大 缓存 的 平均 访问 时 间 ， 而 较 大 的 cache 本 身 可 以 加 快 较 慢 内 存 存储 的 平均 访问 时 间 。 实 际 
应 用 中 cache 总 是 由 易 失 性 储存 器 构成 。 

非 易 失 性 存储 器 在 断 电 时 能 够 保存 上 下 文 。 这 可 以 是 可 编程 非 易 失 性 存储 器 (例如 闪存 、 
EEPROM 、EPROM ) ， 或 者 是 固定 非 可 编程 存储 器 〈 例 如 ROM 和 掩 膜 可 编程 ROM) 。 最 早 的 计 
算 机 则 使 用 电线 、 插 头 或 穿孔 卡 作为 非 易 失 性 存储 器 。 

相反 ， 只 要 电源 关闭 ， 易 失 性 存储 器 就 会 被 撤除 。 这 类 存储 器 包括 SRAM 和 DRAM ( 含 
SDRAM 、DDR 等 ) 。 

7.6 节 也 讨论 了 存储 器 的 相关 内 容 ， 包 括 上 面 提 到 的 这 些 技术 。 


9. 8.1 二 级 存储 


此 前 本 书 已 经 讨论 了 存储 器 ， 并 证 明了 对 易 失 性 和 非 易 失 性 ( Non- Volatile，NV) 设备 
的 需求 ， 本 节 开 始 关注 非 易 失 性 存储 器 。 大 多 数 嵌 和 人 式 系统 使 用 闪存 作为 程序 代码 以 及 数 
据 的 NV 存储 器 (有 时 称 为 大 容量 存储 ) ,但 就 PC 而 言 ， 现 在 一 般 是 使 用 硬盘 驱动 器 或 固态 
硬盘 。 
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大 容量 存储 设备 可 以 通过 多 种 方式 表征 : 


每 兆 字 节 的 成 本 。 
耗 电量 (保持 每 兆 字 节 的 数据 存储 ) 。 
耗 电量 (访问 每 焰 字 节 时 一 一 通常 写 操作 耗 电 量 会 高 于 读 操作 ) 。 1417 | 


数据 密度 〈 每 立方 厘米 的 兆 字 节 ) 。 
接口 类 型 (USB 、ATA 、 火 线 等 ) 。 
存储 设备 的 大 小 、 重 量 或 细 长 程度 。 
其 他 物理 方面 的 因素 ， 例 如 使 用 或 存储 时 是 否 容易 损坏 。 
电源 要 求 (通常 是 12.5V 或 者 3.3V) 。 
访问 时 间 〈 通 常 读 会 比 写 更 快 ) 。 
数据 保留 时 间 (例如 10 年 ) 。 
写 / 擦 除 周期 (例如 10000、100 000 甚至 更 多 ) 。 
写 入 非常 大 量 的 数据 存储 时 〈 几 十 太 字 节 ) ， 磁 带 仍 然 是 可 选 的 最 佳 介质 。 对 于 半 个 到 几 
个 太 字 节 的 数据 ，HDD 为 最 佳 选择 。 对 于 更 少 的 数据 ， 闪 存 则 是 最 佳 选择 。 闪 存 的 领域 近年 
来 变 得 越 来 越 大 ， 还 有 其 他 正在 开发 的 技术 可 以 保证 未 来 能 够 实现 容量 更 大 、 访 问 速度 更 快 或 
功率 更 低 的 存储 。 

9. 8.1.1 不 同 规模 的 存储 
台式 机 和 笔记 本 电脑 这 种 更 大 的 系统 通常 依靠 HDD 进行 二 级 存储 ， 因 此 操作 系统 对 其 

支持 是 极 完善 的 。SSD“ 看 起 来 ” 像 是 操作 系统 和 程序 员 的 HHD ， 它 们 具有 相同 的 接口 《有 时 
甚至 在 物理 上 看 起 来 也 是 一 样 的 ) ， 但 SSD 内 置 闪 存 。 因 此 SSD 可 与 HDD 互 换 使 用 。 对 于 最 
小 的 嵌入 式 系统 ， 尺 寸 和 功 耗 是 关键 因素 ， 因 此 会 使 用 并 行 NAND 闪存 或 串 行 NOR 闪存 。 

中 型 的 智能 系统 则 处 于 一 个 过 渡 领 域 ， 开 发 人 员 可 能 更 追求 HDD 的 便利 性 和 容量 ,但 也 

希望 有 闪存 的 紧凑 型 和 稳健 性 。 

撰写 文本 时 ，SSD 正 变 得 比 HDD 更 受 欢 迎 ， 特 别 是 在 笔记 本 电脑 中 。 虽 然 对 于 程序 员 来 

说 很 相似 ， 但 它们 确实 具有 不 同 的 特征 。 下 面 简明 地 比较 一 下 HDD、SSD 以 及 单独 的 闪存 。 

。 HDD 一 一 非常 长 久 的 数据 保留 时 间 ， 最 大 的 容量 ， 有 着 标准 的 接口 (通常 为 SATA ) ， 
访问 时 间 较 慢 ， 但 内 置 cache 可 加 快 平均 访问 时 间 。 使 用 时 往往 易 损 而 笨重 。 

。 SSD 一 一 比 HDD 容量 小 ， 价 格 贵 很 多 ， 但 体积 更 小 ， 功 耗 更 低 。 通 常 同样 有 着 相同 的 
SATA 接口 ，SSD 通常 在 写 人 大 区 块 数据 时 速度 比 HDD 慢 , 但 读 取 数据 的 速度 更 快 。 
撰写 本 书 时 ，SSD 的 数据 保留 时 间 大 约 为 10 年, 但 具体 取决 于 它 的 使 用 频率 。 

。 闪存 一 一 单独 使 用 或 在 简单 阵列 中 使 用 可 以 具有 与 SSD 相似 的 容量 ,但 闪存 更 小 ， 更 
便宜 且 更 低 功 耗 。 在 读 取 小 区 块 数据 时 速度 与 SSD 相似 ， 除 非 使 用 单独 的 内 存 缓存 ， 
而 写 入 数据 会 比 SSD 较 慢 (因为 SSD 有 内 置 缓存 ) 。 独 立 闪存 的 主要 缺点 是 不 同 制造 
商 的 闪存 的 串 行 接口 和 并 行 接口 的 种 类 差别 非常 大 。 418 

9. 8.1.2 更 多 关于 HDD 的 详细 资料 

尽管 嵌入 式 系 统 通常 都 是 由 SSD 支持 而 很 少 使 用 HDD， 在 其 他 很 多 领域 ， 大 部 分 文件 系 

统 设 计 用 于 HDD 或 类 似 的 旋转 存储 设备 。 甚 至 在 嵌入 式 系统 中 ,文件 系统 也 需要 保留 其 历史 
记录 中 的 术语 ， 因 而 在 此 花费 一 定 篇 幅 了 解 相关 技术 是 值得 的 。 

参考 图 9-8，HDD 包含 了 几 片 称 为 盘 片 的 “ 盘 ”， 上 面 涂 有 磁性 材料 。 盘 片 的 每 一 面 都 有 

专用 的 “ 头 ”， 它 们 可 以 在 共同 的 主轴 上 旋转 ， 以 在 盘 的 表面 上 的 任何 地 方 读 取 或 写 人 磁 信 
息 。 磁 头 在 每 一 面 接触 的 轨道 称 为 柱 面 ， 这 些 环 被 分 成 存储 数据 的 多 个 鹿 区 。 因 此 存储 在 盘 上 
的 任何 信息 项 的 位 置 可 由 磁头 、 柱 面 和 扇 区 决定 。 地 址 可 简写 为 C、H 以 及 S“ 坐 标 ”。 








个 磁头 柱 面 


图 9-8 以 硬盘 驱动 器 的 形式 旋转 存储 器 ， 有 着 4 个 盘 片 ， 每 个 盘 片 表面 具有 单独 的 读 / 写 磁 头 ， 并 说 明 
扇 区 和 柱 面 (也 称 为 轨道 ) 如 图 所 示 布 置 在 每 个 盘 片 的 表面 上 。 实 际 存储 器 可 能 会 有 数 十 个 带 
有 数 百 个 柱 面 和 数 千 个 扇 区 的 盘 片 


当 台 式 机 或 者 笔记 本 电脑 的 BIOS 初次 启动 时 ， “请 求 ”HDD (或 者 是 磁盘 控制 器 。 
On WEI 应 返回 柱 面 总 数 C、 磁 头 总 数 再 以 及 
每 个 柱 面 的 鹿 区 数 S。 

这 很 简洁 明了 ， 但 也 有 一 些 早期 的 BIOS 制造 商 写 人 BIOS 软件 时 限制 了 其 支持 的 柱 面 最 大 
数 。 当 HDD 制造 商 开 始 制造 更 大 容量 的 硬盘 时 ， 它 们 就 不 得 不 通过 报告 假 的 几何 数据 来 瞒 过 
BIOS。 只 要 总 容量 C x H xS 是 正确 的 ， 通常 就 不 会 出 现 问 题 。 

为 了 解决 这 个 问题 ， 标 准 的 CAH/S 几何 在 十 多 年 前 被 逻辑 块 寻 址 (Logical Block Address- 
ing，LBA) 取代 了 ， 逻 辑 块 寻 址 简单 地 从 编号 0 到 数 十 亿 的 扇 区 。 然 而 直到 今天 ， 当 我 们 使 用 
基于 闪存 的 SSD 或 插入 基于 闪存 的 USB 存储 设备 时 ， 它 们 还 是 会 向 操作 系统 以 CLH/S 的 形式 
返回 几何 信息 报告 。 而 这 些 设备 并 没有 真正 包含 任何 互 (磁头 )，C ( 柱 面 ) 或 者 S ( 扇 区 ) ， 
但 遗留 的 寻 址 系统 至 今 仍 在 继续 使 用 。 

任何 HDD (以 及 大 多 数 其 他 类 型 的 二 级 存储 介质 ) 都 需要 格式 化 才能 使 用 。 通 过 文件 系 
统 ( 详 见 9. 8.2 节 )， 格式 化 可 以 将 硬盘 上 的 数据 结构 组 织 成 逻辑 排列 。 通 常 ， i 
二 级 存储 介质 在 使 用 前 会 分 区 。 分 区 意味 着 可 以 将 空间 划分 为 更 小 的 区 域 。 分 区 之 后 ， 每 个 区 
间 可 以 单独 地 使 用 文件 系统 (例如 每 个 区 间 的 分 区 格式 不 同 )。 

分 区 可 以 作为 组 织 盘 的 手段 来 执行 ， 例如， 具有 用 于 正常 文件 存储 和 备份 数据 的 单独 区 
域 , 或 具有 来 自用 户 数 据 的 两 个 单独 的 操作 系统 代码 。 也 可 能 是 因为 系统 内 需要 不 同 的 特性 ， 
又 例如 ， 只 读 用 户 只 可 以 访问 一 些 区 间 ， 而 读 写 用 户 可 以 访问 一 些 区 间 。 或 者 ， 某 些 用 户 可 能 
想 要 一 个 可 以 快速 存储 大 量 数据 的 分 区 ， 而 其 他 用 户 可 能 需要 一 个 具有 最 高 可 靠 性 的 分 区 (这 
通常 意味 着 速度 会 比较 慢 ) 。 

9. 8. 1.3 更 多 关于 启动 的 详细 资料 

9. 5.2 节 介 绍 了 系统 如 何 从 HDD 或 SSD 中 启动 。 通 过 查看 主 引 导 记 录 (Master Boot Re- 
cord，MBR) 可 以 详细 知道 BIOS 如 何 从 引导 介质 读 取 引 导 加 载 程序 。 当 用 户 可 以 插入 不 同 的 
软盘 来 启动 计算 机 时 ， 整 个 布局 就 开始 了 。 首 次 启动 后 ， 计 算 机 并 不 “知道 ”在 什么 位 置 查 
到 引导 加 载 程序 ， 因 此 开发 了 一 个 标准 。 在 指定 为 可 引导 (例如 能 够 从 中 引导 ， 最 好 包含 有 效 
的 引导 加 载 程序 ) 的 磁盘 (无 论 是 软盘 还 是 硬盘 ) 上 ， 磁盘 (HDD、 软 盘 、SSD 以 及 现今 的 
USB 连接 的 闪存 设备 ) 的 前 几 个 扇 区 应 包含 主 引 导 记 录 。 通 常 ，MRB 会 位 于 C=0,H =0， 
S=1 的 位 置 。 这 个 扇 区 的 数据 首先 包含 了 主 分 区 表 ， 然 后 是 小 区 块 引导 代码 。 

主 分 区 表 列 出 了 设备 的 四 个 基本 分 区 。 每 个 分 区 都 分 配 了 一 个 类 型 ， 可 以 设置 为 “活动 ” 
或 “可 启动 (意味 着 BIOS 可 以 从 这 启动 ) ”。 主 引导 代码 是 BIOS 加 载 并 执行 以 开始 引导 进程 
的 软件 。 其 中 可 能 包含 了 引导 加 载 程序 自身 ， 但 一 般 只 会 简单 包含 一 个 小 型 加 载 器 ， 用 于 从 光 
盘 上 的 其 他 位 置 定位 并 运行 实际 的 引导 加 载 程序 。 

可 选用 的 分 区 类 型 有 几 百 种 ,但 当今 使 用 的 主要 类 型 及 其 数字 ID 如 下 : 
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ID Type ID Type 
0x0 Empty 0x82 Linux swap 
Oxl FAT12 0x83 Linux 
0x4 FAT16 <32M Ox85 Linux extended 
Ox5 Extended (CHS addressing) Ox8e Linux LVM 
0x6 FATI6 
0x7 HPFS/NTFS/extended FAT 
0xb W95 FAT32 
Oxe W95 FAT32 (LBA) 

Oxe W95 FATI6 (LBA) 

Oxf W95 Ext’d (LBA) 





在 Linux 系统 中 ，fdisk 程序 可 以 提供 完整 的 清单 ， 它 比 上 面 列 出 的 短 短 几 行 长 得 多 。 

双 启 动 计算 机 意味 着 在 启动 计算 机 时 选择 两 个 〈 或 者 更 多 ) 操作 系统 之 一 。 例 如 ， 可 以 
让 MacBook 启动 ， 进 入 自 带 的 MacOS-X， 也 可 以 选择 进入 Linux。 三 重启 动 示 例 将 改善 运行 
Windows 的 PC， 以便 可 以 将 其 启动 到 Linux 或 FreeBSD。 这 通常 (但 不 是 唯一 方法 ) 通过 让 每 
个 操作 系统 都 有 单独 的 分 区 来 实现 。 每 个 分 区 根据 相应 操作 系统 的 本 机 文件 系统 进行 格式 化 。 

在 这 种 情况 下 ，MBR 启动 一 个 选择 器 ， 人 允许 用 户 指 定 要 引导 的 操作 系统 。 如 果 选 择 了 
Linux ， 引 导 进 程 通 过 执行 分 配给 Linux 分 区 的 开头 部 分 的 引导 记录 以 继续 进程 。 如 果 选 择 了 
FreeBSD ， 引 导 进 程 则 通过 执行 FreeBSD 区 间 的 启动 代码 来 继续 进程 。 一 旦 启动 ， 系 统 ( 特别 
是 Linux 和 FreeBSD) 可 以 轻易 访问 其 他 分 区 的 数据 ， 但 它们 各 自在 光盘 上 以 自己 的 分 区 形式 
拥有 自己 的 “本 地 ”空间 。 

9. 8.1.4 附加 分 区 

上 文 提 及 了 MBR 中 四 个 分 区 的 限制 。 虽 然 最 初 的 开发 者 认为 这 样 设计 可 以 满足 所 有 人 ， 
但 这 种 限制 最 终 成 为 一 个 瓶颈 。 作 为 对 应 方法 ， 一 个 特殊 的 主 分 区 类 型 号 被 预 留 了 出 来 ， 表 示 
该 分 区 内 部 包含 更 多 分 区 。 

因此 ， 分 区 ID 0x5 意味 着 “额外 ”。 这 个 分 区 有 着 自己 的 分 区 表 ， 进 一 步 细 分 了 分 区 。 
图 9-9 所 示 的 例子 中 ， 这 个 双 启 动 计算 机 有 着 DOS 或 Windows 分 区 和 几 个 原生 Linux 分 区 
(ext2 和 ext3) 和 一 个 Linux 的 swap 空间 ， 其 可 以 在 运行 内 核 时 用 作 临 时 数据 存储 。 

GZ 






4A 
主 分 区 3 (extended) 





NS 
NS 





图 9-9 一 个 包含 三 个 主 分 区 的 分 区 表 的 例子 ， 第 三 个 分 区 包含 三 个 逻辑 分 区 


此 前 的 内 容 有 提 及 ， 每 个 分 区 都 以 自己 的 引导 记录 作为 开头 。 这 种 称 为 卷 引导 记录 
(Volum Boot Record，VBR) ， 它 的 操作 与 MBR 很 像 ， 只 不 过 VBR 只 记录 了 分 区 而 不 是 整个 磁 
盘 的 上 下 文 。 额 外 分 区 的 引导 记录 有 一 个 特殊 的 名 字 ， 称 为 扩展 引导 记录 ( Extended Boot Re- 
cord，EBR) 。MBR、VBR 和 EBR 基本 上 相同 并 且 执 行 几乎 相同 的 功能 ， 它 们 定义 了 磁盘 的 大 
小 以 及 在 其 内 部 可 以 找到 的 内 容 。 


9.8.2 文件 系统 的 作用 
文件 系统 (File System，FS) 的 作用 是 在 存储 设备 上 分 配 空间 单元 并 组 织 文 件 和 目录 。FS 
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需要 追踪 介质 中 的 哪 一 部 分 被 分 配 到 了 哪个 文件 ， 哪 一 部 分 当前 没有 使 用 。FS 还 能 写 和 人 数据 
到 文件 并 且 随 后 能 定位 并 读 取 它 。 

任何 包含 程序 或 数据 的 分 区 首先 需要 使 用 某 种 文件 系统 进行 格式 化 ， 而 其 中 有 数 百 种 选 
择 。UNIX 标准 将 文件 排列 在 单个 树 结构 中 ，Linux 、FreeBSD 、MacOS-X 以 及 其 他 现代 操作 系 
统 都 采用 了 这 个 标准 。 整 个 结构 的 原点 称 为 根 ， 在 UNIX 系统 中 用 符号 “/ ”表示 ，9. 8.3.2 节 
将 会 再 介绍 其 相关 内 容 。 

最 常见 的 Linux 文件 系统 用 于 所 有 规模 的 系统 ， 从 可 以 吞 下 的 微型 做 入 式 医疗 诊断 计算 机 
到 地 球 上 最 大 的 超级 计算 机 ， 都 属于 ext (扩展 ) 文件 系统 的 范围 。 

这 些 与 UNIX 和 Linux 的 历史 交织 在 一 起 的 FS 将 在 框 9. 3 中 进行 了 更 多 的 探讨 ， 但 简 而 言 
之 ， 第 二 个 扩展 文件 系统 一 一 ext2 通常 被 认为 是 Linux 默认 的 。ext2 高 效 而 快速 ， 但 并 不 如 添 
加 了 日 志 支 持 的 ext3 可 靠 (9. 8. 3. 3 节 中 将 会 讨论 日 志 相 关内 容 ， 日 志 化 往往 会 增加 写 入 期 间 
电源 故障 等 事件 的 可 靠 性 ， 但 代价 是 写 人 数据 时 速度 较 慢 ) 。ext4 引入 了 一 些 非常 显著 的 速度 
和 可 扩展 性 改进 ， 这 也 是 高 度 可 配置 的 (参见 框 9.4)。 

分 区 文件 系统 一 一 ext4 

尽管 原始 的 ext2 仍然 被 广泛 地 使 用 (特别 是 在 嵌入 式 系统 中 )， 但 正在 逐渐 被 添加 了 日 志 支 持 的 
ext3 代替 。 在 大 多 数 情况 下 ，HDD 上 ext2 和 ext3 是 可 交换 的 ， 但 设计 者 可 能 会 选择 ext2 作为 不 可 变 的 只 
读 磁盘 分 区 (在 此 中 日 志 并 不 重要 ) ，ext3 分 区 则 是 关键 数据 写 入 的 地 方 。 

使 用 ext3 的 主要 成 本 是 速度 和 功率 。 因 此 最 新 的 选择 ext4 已 被 设计 得 更 快 、 更 有 效率 ， 下 面 介绍 几 
个 新 的 特性 : 

e 支持 非常 大 的 分 区 (ext4 是 64 位 的 FS)。 

@ 如 果 知 道 需 要 多 大 的 空间 ， 则 允许 程序 员 为 文件 预 分 配 空间 。 

e 将 ext3 中 每 个 目录 的 最 大 文件 个 数 (3200) 翻 倍 。 

e 检测 文件 系统 时 更 快 。 

e 时 间 惟 文件 的 纳 秒 级 〈 而 不 是 秒 ) 分 辩 率 。 

另外 下 面 解释 三 个 附加 功能 : 

e 支持 延迟 分 配 。 

e 执行 日 志 校 验 。 

e 使 用 “范围 ”而 不 是 区 块 的 方式 映射 。 

部 分 改进 仅 适用 于 大 型 系统 ， 但 ext4 是 高 度 可 配置 的 ， 对 于 资源 受 限 的 嵌入 式 系统 可 以 配置 得 更 精 
简 (可 在 框 9.4 中 查看 关于 其 可 配置 性 的 概述 )。 

延 时 分 配 一 一 只 是 意味 着 文件 系统 会 在 确认 文件 大 小 之 后 才 给 该 文件 分 配 使 用 的 区 块 (这 个 想 
法 是 ， 如 果 知 道 了 文件 的 确切 大 小 就 可 以 选择 刚好 合适 的 空间 ， 而 不 是 做 出 最 终 可 能 错误 的 猜测 )。 
这 以 略微 降低 写 入 速度 为 代价 减少 了 整体 碎片 。 对 预先 分 配 空间 的 支持 (如 果 可 能 ) 站 在 减轻 部 分 
成 本 。 

日 志 校 验 一 一 意味 着 只 需要 更 少 的 时 间 来 验证 日 志 是 否 正 确 。 检 查 时 ， 它 计算 日 志 内 存 区 域 的 校 验 
和 ， 然 后 将 计算 的 校 验 和 与 磁盘 上 存储 的 校 验 和 进行 比较 。 

范围 一 一 在 早期 的 ext 文件 系统 实现 中 替代 区 块 映射 。 范 围 是 指向 起 始 区 块 的 指针 ， 加 上 一 个 长 度 
字段 表示 使 用 了 多 少 个 区 块 。 所 以 这 并 不 存储 每 个 区 块 的 指针 ( 老 系统 会 这 么 做 ) ，ext4 索引 节点 包含 最 
多 4 个 范围 。 

屏障 用 于 文件 系统 强制 规定 数据 写 入 顺序 ,以 确认 日 志 中 的 序列 。 需 要 这 么 做 是 因为 有 内 置 缓 
存 的 硬盘 (现在 的 硬盘 都 有 ) 将 物理 数据 写 入 光盘 表面 的 顺序 通常 与 操作 系统 将 其 传递 给 HDD 的 顺序 
不 同 。 屏 障 强 制 了 顺序 写 入 ， 所 以 日 志 会 保持 正确 ， 但 这 需要 付出 性 能 略微 下 降 的 代价 。 文 件 系统 不 做 
任何 更 改 ， 但 如 果 存 储 设 备 没 有 重新 排序 写 入 ， 则 可 以 用 mount o barrier =0 无 屏障 地 挂 载 ， 在 这 种 
情况 下 写 入 速度 会 稍微 快 一 点 。 
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对 系统 设计 者 的 一 些 建议 

只 读 取 而 不 写 入 (例如 嵌入 式 系统 的 启动 代码 ) 的 文件 系统 可 以 安全 地 选择 ext2。 但 是 任何 频繁 写 
入 操作 的 文件 系统 都 会 被 破坏 ， 需 要 定期 检查 。 日 志 会 使 得 这 更 高 效 ， 因 此 选择 ext3 或 ext4。 

最 后 需要 注意 的 是 ， 以 下 情况 可 能 根本 不 需要 使 用 文件 系统 : (i) 自己 管理 数据 块 ;(ii) 假设 写 入 
的 数据 大 小 固定 ; (过 ) 不 要 求 存储 器 与 其 他 系统 兼容 。 
i 于: 胎 昌 ”文件 系统 配置 一 一 ext4 

ext4 有 许多 可 配置 选项 ， 它 们 可 以 在 创建 时 (即使 用 mke2fs 程序 格式 化 分 区 /磁盘 时 ) 设置 ， 也 可 
以 在 创建 后 ， 当 mke2fs 程序 可 以 调整 文件 系统 时 (只 要 其 当前 没有 挂 载 ) 设置 。 主 要 选项 包括 : 

。 没有 日 志 一 一 允许 关闭 日 志 支 持 。 对 只 读 分 区 很 实用 ,尽管 只 读 时 也 可 以 使 用 ext2。 

。 索引 节点 大 小 一 一 ext3 默认 是 128 字 节 。 相反，ext4 需要 至 少 256 字 节 ， 这 可 以 扩展 ， 在 系统 要 








存储 大 量 文件 时 很 实用 。 

。 默认 提交 时 间 一 一 早期 版 本 的 ext 也 支持 ， 默 认 情 况 下 数据 会 在 5s 后 写 入 ,但 延 时 分 配 时 会 增加 
到 30s。 

e 区 块 大 小 一 一 使 用 闪存 时 ， 区 块 大 小 应 与 原始 清除 区 块 一 致 或 者 是 它 的 倍数 。 

。 每 个 节点 的 字 节 一 一 这 应 该 是 区 块 字 节 的 倍数 。 定 义 可 以 存储 给 定 分 区 大 小 的 文件 数 。 

。 日 志 位 置 一 一 日 志 可 以 存储 在 不 同 的 位 置 ， 包 括 单 独 的 设备 。 

。 校 验 频率 一 一 该 选项 指定 文件 系统 需要 校 验 的 频率 ， 按 挂 载 次 数 或 经 过 的 时 间 计 算 。 该 选项 还 支 





持 极端 的 选择 ， 每 一 次 都 校 验 或 者 从 不 校 验 。 

另外 ， 文 件 /etc/mke2fs. conf 指定 了 建立 新 的 ext4 (或 者 其 他 ext) 文件 系统 的 默认 配置 并 对 不 同 大 
小 的 系统 给 出 一 些 提示 。 

校 验 文件 系统 是 通过 使 用 e2fsck 工具 完成 的 ， 因 此 需要 通过 编辑 文件 /etc/e2fsck. conf 来 配置 指定 : 
(i) 出 现 不 可 恢复 的 文件 系统 错误 时 ， 系 统 应 该 执行 什么 操作 ; (ii) 系统 应 该 把 什么 归 类 为 “不 可 恢 
复 ” 的 错误 ; ( 诈 ) e2fscf 应 该 自动 修复 什么 类 型 的 错误 ( 尽 可 能 多 ) 。 

其 他 有 趣 的 文件 系统 有 JFS 一 一 IBM 的 Journaled FS， 设 计 得 快速 是 稳定 ， 还 有 ReiserFS ， 
是 在 千 禧 年 之 际 由 一 个 神秘 人 开发 并 命名 的 。ReiserFS 在 当时 十 分 超前 ， 许 多 后 来 所 谓 的 更 现 
代 的 文件 系统 新 改进 都 是 从 ReiserFS 引入 的 。 

除了 用 于 HDD 的 大 量 文件 系统 之 外 ， 在 用 于 底层 直接 访问 时 (不 是 通过 使 设备 看 起 来 像 
HDD 来 隐藏 介质 的 闪存 性 质 的 SSD)， 还 有 一 些 专门 设计 用 于 闪存 的 文件 系统 。YAFFS ( Yet 
Another Flash Filing System， 田 一 个 闪存 归档 系统 ) 是 为 NAND 闪存 设计 的 鲁 棒 的 文件 系统 ， 以 
敏感 的 方式 处 理 闪存 块 ， 包 括 监 测 每 个 区 块 的 最 大 擦 除 / 写 入 周期 数 。JFFS2 是 日 志 闪 存 归档 
系统 ， 其 结合 了 YAFFS 的 耐用 性 能 和 JFS 或 ext3 的 日 志 。UBIFS (Unsorted Block Image FS, 无 
序 区 块 镜像 文件 系统 ) 是 另 一 个 试图 保留 ext3 这 一 类 文件 系统 的 优点 但 又 保持 损耗 均衡 并 能 
应 对 闪存 限制 的 文件 系统 。 


9. 8.3 什么 是 文件 系统 


文件 系统 包括 用 户 数据 (例如 文件 和 程序 ) 以 及 元 数据 〈 结 构 信 息 、 索 引 以 及 属性 ) 。 结 
构 信 息 和 属性 包括 名 称 、 文 件 大 小 、 时 间 、 创 建 日 期 、 创 建 的 用 户 ， 以 及 用 户 权限 〈 用 于 
UNIX 风格 的 系统 安全 设置 ) 。 

在 ext 文件 系统 中 ， 元 数据 以 称 为 超级 区 块 的 地 方 开始 。 这 包含 文件 系统 类 型 的 信息 、 整 
体 大 小 、 当 前 状态 ， 以 及 如 何 找到 其 他 磁盘 上 的 元 数据 结构 。 

超级 区 块 非常 重要 一 一 缺失 这 个 信息 ， 所 有 文件 都 可 能 丢失 一 一 因此 超级 区 块 总 有 一 个 副 
本 。 在 Linux 中 ,使 用 dumpe2fs 命令 可 以 轻易 确定 有 多 少 副本 以 及 它们 在 什么 位 置 。 

以 下 示例 检查 名 为 sda6 的 分 区 ， 它 是 第 一 个 SATA HDD( 在 sda 中 用 “a” 表 示 ) 上 的 第 七 
个 分 区 (0…6) : 








$ sudo dumpe2fs /dev/sda6 | grep -i superblock 

dumpe2fs 1.42 (29-Nov-2011) 
Primary superblock at 0, Group descriptors at 1-19 
Backup superblock at 32768, Group descriptors at 32769-32787 
Backup superblock at 98304, Group descriptors at 98305-98323 
Backup superblock at 163840, Group descriptors at 163841-163859 
Backup superblock at 229376, Group descriptors at 229377-229395 
Backup superblock at 294912, Group descriptors at 294913-294931 
Backup superblock at 819200, Group descriptors at 819201-819219 

超级 区 块 应 为 1024 字 节 长 并 且 起 始点 始终 是 从 分 区 起 点 偏 移 1024 字 节 处 (这 在 上 述 例子 
中 为 区 块 0) 。 

文件 系统 被 分 成 区 块 ， 而 这 些 区 块 在 ext2 中 还 会 被 排列 成 区 块 群 组 。 每 个 文件 通常 分 布 在 
几 个 区 块 上 ， 但 它们 通常 都 位 于 同一 个 区 块 群 组 中 。 

一 些 区 块 群 组 包含 超级 区 块 的 副本 ， 也 包含 描述 了 表 、 区 块 位 图 、 索 引 节点 表 ， 当 然 还 有 
实际 数据 的 超级 区 块 。 位 图 是 一 种 用 来 加 快 检索 磁盘 速度 的 结构 ， 索 引 节 点 包含 了 所 有 数据 和 
元 数据 (之 后 会 说 明 ) 。 最 近 的 ext2 系统 中 ， 超 级 区 块 存储 在 区 块 0 和 1 以 及 3,， 5 和 7 的 平方 
中 ,但 这 在 设备 首次 格式 化 时 可 以 配置 。 

格式 化 时 ， 固 定 大 小 的 块 组 将 放置 在 设备 上 ， 从 而 形成 图 9-10 所 示 的 结构 ， 其 中 ,磁盘 
上 有 多 个 块 组 ， 并 放大 了 三 个 块 组 ， 其 中 一 些 块 组 包含 超级 区 块 的 副本 。 
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图 9-10 ”排列 的 介质 上 的 块 组 总 览 图 在 顶部 ， 底 部 为 三 个 块 组 的 放大 结构 图 。 
其 中 两 个 组 块 包含 了 超级 区 块 的 副本 ,但 都 包含 通常 的 描述 符 表 


为 了 更 仔细 地 了 解 其 工作 原理 ， 表 9-1 给 出 了 一 个 使 用 ext2 格式 化 ， 块 大 小 为 1KB 的 
20MB 大 小 的 HDD 结构 (该 表 的 原始 数据 摘自 www. nongnu. org ) 。 
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表 9-1 使 用 1KB 大 小 区 块 的 ext2 格式 化 的 20MB 的 HDD 的 区 块 结构 例子 
地 址 长 度 描述 符 
0 512 字 节 引导 记录 
Cab 512 字 节 附加 引导 记录 
” 抉 组 0 (区 块 1 到 8192) 
1024 | 1024 字 节 [ 超级 区 块 
区 块 2 1 个 区 块 BG 描述 符 表 
区 块 3 1 个 区 块 区 块 位 图 
区 块 4 1 个 区 块 索引 节点 位 图 
区 块 5 | 214 个 区 块 索引 节点 表 
区 块 219 7974 个 区 块 数据 块 
块 组 1 (区 块 8193 到 16 384) 
区 块 8193 1 个 区 块 超级 区 块 备份 
区 块 8194 1 个 区 块 BG 描述 符 表 b/up 
区 块 8195 1 个 区 块 区 块 位 图 
区 块 8196 1 个 区 块 是 索引 节点 位 图 
区 块 8197 214 个 区 块 索引 节点 表 
区 块 8411 7974 个 区 块 数据 块 
块 组 2 (区 块 16 385 到 24 576) 
区 块 16 385 1 个 区 块 区 块 位 图 
区 块 16 386 1 个 区 块 索引 节点 位 图 
区 块 16 387 214 个 区 块 索引 节点 表 
区 块 16 601 7976 区 块 数据 块 


需要 注意 的 是 ， 如 果 区 块 尺寸 大 于 1KB， 第 一 个 超级 区 块 会 位 于 区 块 0 而 不 是 区 块 1 ( 因 
为 它 位 于 距 起 始 位 置 1024B 的 固定 位 置 ， 并 且 无 论 配置 的 块 大 小 如 何 ， 该 偏 移 都 不 会 改变 ) 。 


9.8.3.1 索引 节点 


在 UNIX 风格 的 文件 系统 (例如 ext2) 中 ,索引 节点 是 一 个 基本 数据 结构 。 这 是 文件 系统 
所 包含 的 数据 “容器 *" ， 包 含 存 储 在 磁盘 上 的 所 有 内 容 。 除 了 以 文件 形式 存储 的 实际 用 户 数 据 
之 外 ， 索 引 节 点 还 包含 有 关 每 个 文件 〈 或 关于 每 个 文件 系统 对 象 ) 的 信息 ,包括 它们 的 类 型 
(例如 ， 可 执行 、 字 符 或 特殊 块 )、 与 文件 相关 的 权限 (例如 ， 读 取 、 写 入 、 可 执行 或 特殊 部 
分 , 标记 为 R、W、X 或 S)、 所 有 者 的 用 户 ID、 文 件 所 属 组 的 组 ID 、 文 件 大 小 、 文 件 访问 /更 
改 /修改 /创建 /删除 的 时 间 、 链 接 〈 软 或 硬 ) ， 以 及 其 他 几 个 更 复杂 的 信息 。 奇 怪 的 是 节点 信 
息 却 不 包含 文件 名 (随后 将 说 明 )。 需 要 着 重 注意 在 Linux 上 ， 每 个 文件 只 有 一 个 索引 节点 ， 


访问 索引 节点 十 分 容易 。 


以 下 是 两 种 方法 ,一 种 只 显示 索引 节点 编号 (11535538)， 男 一 种 则 会 显示 更 多 信息 : 


$ 1s -i /etc/passwd 


11535538 /etc/passwd 


$ stat /etc/passwd 
File: '/etc/passwd'! 
Size: 1878 
Device: 806h/2054d 
Access: 
Access: 
Modify: 
Change: 
Birth: - 


(0644/-rw-r--r--) 
2012-11-21 15:53:22.359678777 +0800 
2012-09-21 13:25:36.939097771 +0800 
2012-09-21 13:25:36.995097774 +0800 


Blocks: 8 
Inode: 
Uid: 


11535538 


IO Block: 4096 regular file 
Links: 1 


(0/root) Gid: (0/root) 
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图 9-11 所 示 的 节点 索引 容器 包含 了 数据 或 者 数据 的 相关 信息 。 在 程序 中 ,一 个 “容器 ” 
通常 会 被 称 为 “结构 "， 这 正 是 索引 节点 。 这 是 存储 在 磁盘 上 的 信息 结构 。 文 件 会 以 一 个 区 块 
上 的 索引 节点 开始 ， 但 最 后 可 能 会 分 布 在 几 个 区 块 上 。 
426 索引 节点 结构 为 一 组 指向 区 块 的 指针 。 遵 循 索引 节点 ， 指 向 直接 定义 的 前 12 个 块 实际 上 
包含 文件 数据 ， 但 文件 通常 比 这 个 大 (例如 1KB 的 区 块 ， 文件 可 以 为 12KB)。 在 这 种 情况 下 ， 
第 13 个 块 包含 指向 间接 区 块 的 指针 。 间 接 区 块 本 身 包 含 一 组 指针 ， 这 些 指 针 本 身 直接 指向 其 
他 数据 块 。 倘 若 这 仍然 不 够 大 ， 之 后 的 第 14 个 指针 会 指向 一 个 双重 间接 区 块 。 双 重 间 接 区 块 
包含 一 组 指针 指向 一 组 间接 区 块 ， 其 中 的 指针 才 会 直接 指向 实际 数据 块 。 
逻辑 结构 物理 结构 

索引 节点 (每 个 文件 的 ) 

六 
指向 区 块 2 的 指针 
间接 指向 区 块 1 的 指针 | 
区 块 指向 区 块 1 的 指针 


EE 

: | 
指向 区 块 2 的 指针 : EE 
指 问 区 块 3 的 指针 
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-= 
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图 9-11 逻辑 索引 节点 结构 ( 左 ) 表示 了 如 何 通过 直接 指向 数据 块 或 
指向 数据 块 的 间接 块 与 磁盘 〈 右 ) 上 的 数据 关联 


如 果 仍 然 无 法 达到 文件 所 需 大 小 ， 第 15 个 指针 还 会 指向 一 个 三 重 间接 区 块 。 这 指 疝 男 一 
组 双重 间接 区 块 ， 同 样 双重 间接 区 块 还 会 指向 间接 区 块 ， 间 接 区 块 内 的 指针 直接 指向 实际 数据 
块 。 这 个 过 程 会 持续 到 整个 文件 被 存储 ， 如 图 9-12 中 的 三 个 图 表 所 示 。 
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双重 
索引 节点 间接 区 块 


间接 区 块 
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图 9-12 直接 指向 数据 块 〈 所 示 的 三 个 ) 、 间 接 数 区 块 以 及 双重 间接 区 块 的 索引 节点 结构 ( 左 )。 
双重 间接 区 块 指向 一 组 间接 区 块 ， 同 时 所 有 直接 区 块 都 直接 指向 数据 块 
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9. 8. 3.2 目录 和 根 文件 系统 

目录 (有 时 也 称 为 文件 夹 ) 对 于 用 户 来 说 ， 是 基于 GUI 的 计算 机 放置 文件 的 区 域 。 用 户 
可 将 文件 放 入 文件 夹 ， 将 其 重 命名 、 删 除 或 者 移动 到 其 他 文件 夹 。 大 量 的 文件 可 能 让 读者 产生 
错觉 : 文件 都 存储 于 一 个 硬盘 中 ， 分 散 于 文件 编排 系统 ， 并 使 用 之 前 章节 提 到 的 索引 节点 存 
储 ， 而 不 是 根据 独立 的 文件 夹 进行 存储 。 文 件 夹 与 文件 在 硬盘 的 存储 位 置 没有 任何 相关 性 。 文 
件 夹 的 作用 是 方便 用 户 将 海量 文件 进行 分 类 。 

简 而 言 之 ,目录 只 是 一 个 包含 一 列 文件 (或 链接 ) 的 数据 结构 。 每 个 文件 夹 有 一 个 数据 
结构 ， 其 中 的 每 个 文件 包含 一 个 条 目 。 由 于 其 让 文件 便于 搜索 ， 因 此 被 称 为 目录 。 

为 每 个 文件 存储 的 目录 信息 只 是 其 索引 节点 序号 (注意 每 个 文件 只 有 一 个 详细 索引 节 
点 ) ,文件 名 的 长 度 (如 文件 名 中 的 字符 数 ) ， 以 及 文件 名 本 身 。 由 于 UNIX 系统 允许 极 长 的 文 
件 名 ， 若 每 个 文件 都 分 配 空间 用 来 存储 最 大 文件 名 长 度 ， 效 率 会 降低 ， 因 此 合适 的 文件 名 很 
重要 。 

读者 不 难 发 现 ， 目 录 数 据 结构 本 身 就 是 另 一 个 索引 节点 目标 。 对 于 ex2 ， 根 目录 总 是 与 索 
引 节点 2 绑 定 : 

$ sudo stat / 

PE 2 
Size: 4096 Blocks: 8 IO Block: 4096 directory 

Device: 806h/2054d Inode: 2 Links: 24 

Access: (0755/drwxr-xr-x) Uid: (0/root) Gid: (0/root) 

Access: 2012-11-22 12:46:26.405056381 +0800 

Modify: 2012-10-02 15:21:11.571237232 +0800 


Change: 2012-10-02 15:21:11.571237232 +0800 
Birth: 


当 操作 系统 读 取 文件 系统 时 ， 如 搜索 文件 ， 总 是 由 固定 位 置 ( 如 根 目录 ) 开始 。 

在 根 目录 中 ， 操 作 系统 可 以 找到 文件 名 以 及 每 个 子 目录 和 文件 的 索引 节点 。 在 子 目录 中 搜 
寻 内 容 很 容易 一 “找到 子 目录 的 索引 节点 并 读 取 数 据 。 这 个 索引 节点 数据 本 身 是 一 个 目录 数据 
结构 ， 包 含 一 列 项 目 名 称 以 及 相应 的 索引 节点 。 

只 要 操作 系统 知道 起 始 位 置 ， 仅 通过 扫描 子 目 录 的 检索 节点 链接 就 可 以 找到 机 器 中 的 所 有 
文件 及 目录 。 所 有 文件 最 终 和 根 目录 联系 。 

如 图 9-13 所 示 为 UNIX 部 分 目录 树 ， 为 清楚 起 见 ， 目 录 中 显示 一 个 文件 ， 名 为 Lecture0l. pdf， 
以 及 系统 中 的 一 部 分 分 支 。 文 件 的 完整 路 径 〈 即 目录 位 置 ) 为 


/home/asian/docs/teaching/Lecture01 .pdf 
~ 
bin etc home sbin mount UST Var 
anne asian tom bin sbin log www 
docs music 
research teaching 


Lecture01.pdf 
图 9-13 Linux 系统 的 一 个 简单 ext2 目录 结构 ， 在 这 里 只 列 出 一 些 重要 的 分 支 


计算 机 中 每 个 可 访问 的 文件 会 在 树 中 显示 。 文 件 也 可 能 出 现 两 次 。UNIX 同时 支持 “ 软 ” 
和 “ 硬 ” 符 号 链接 。 硬 符号 链接 允许 同一 个 检索 节点 列 人 两 个 或 多 个 目录 数据 结构 中 ， 然 而 


427 
1 
429 
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软 符号 链接 在 目录 数据 结构 排列 方式 不 同 ， 为 另 一 个 目录 的 目录 结构 链接 。 硬 链接 允许 直接 访 
问 文件 ， 而 软 链接 导入 另 一 个 目录 的 列表 。 

当 另 一 个 存储 设备 连接 到 Linux 系统 ， 如 在 计算 机 插入 一 个 USB 存储 设备 ， 就 会 “能 和 人” 
目录 树 。 在 台式 或 笔记 本 计算 机 中 嵌入 过 程 自动 发 生 ， 但 是 在 戏 人 式 系统 中 ， 需 要 一 个 命令 才 
能 实现 ， 该 命令 通常 由 超级 用 户 (具有 系统 中 所 有 许可 的 用 户 ， 如 root 权限 ) 发 出 。 在 两 种 类 
型 的 系统 中 ， 在 拔 出 设备 前 应 将 其 印 载 ， 以 防止 数据 丢失 。 图 9-14 所 示 为 租 入 了 两 个 外 设 的 
Linux 根 目录 树 。 第 一 个 设备 是 DVD- ROM 设备 ， 艇 入 在 /media/dvd 中 ， 第 二 个 艇 入 在 /homev 
tom_in_nz 中 ， 其 实 是 对 另 一 台 计算 机 上 的 共享 文件 夹 进行 网 络 戏 人。 


/ 


bin etc home lib media sbin Usr var 


a 
网 络 连接 tom_in_NZ 





其 他 设备 的 
本 地 DVD 的 


图 9-14 ”Linux 系统 的 单一 UNIX 树 ， 展 示 了 一 个 ext2 HDD、 一 个 租 人 的 DVD- ROM 设备 和 一 个 网 络 
舱 入 的 目录 (本 例 中 物理 地 址 在 新 西 兰 ， 但 是 在 本 地 计算 机 中 作为 部 分 目录 树 出 现 ) 


最 后 ， 读 者 需要 注意 ，Windows 与 MS-DOS 系统 没有 单独 的 目录 树 ， 而 是 为 每 个 设备 创建 


独立 目录 树 。 如 图 9-15 中 两 个 命名 为 C: 和 D: 的 HDD 所 示 。 


GC: By: 
documents user sys music data BACKUP 


Personal old 


Letterl.doc 


图 9-15 Windows 和 MS-DOS 目录 结构 ， 展 示 了 两 个 HDD 的 独立 树 


9.8.3.3 日 志 

日 志 是 很 简单 的 概念 一 一 如 果 文 件 系 统 保留 所 有 已 办 事项 和 代办 事项 的 记录 ， 文 件 系统 就 
永远 不 会 在 不 确定 〈 或 不 可 恢复 ) 状态 了 。 在 断 电 恢复 后 ， 无 论 系 统 是 否 和 记录 一 致 ， 都 可 
以 通过 记录 恢复 。 

日 志 的 主要 作用 是 恢复 损坏 的 文件 系统 。 通 常 在 数据 写 人 过 程 中 ， 系 统 骨 省 或 供电 中 断 往 
往 会 导致 文件 系统 损坏 。 实 际 上 所 有 的 文件 系统 最 终 都 会 出 错 ， 因 此 需要 定期 检查 并 维护 ， 以 
防止 出 现 更 严重 的 问题 。 对 于 使 用 更 久 的 文件 系统 ， 可 能 还 需要 定期 进行 磁盘 碎片 清理 。 

日 志 是 用 来 减少 由 部 分 写 人 造成 的 额外 维护 的 一 种 方法 ， 以 此 减少 维护 需求 并 简化 维护 过 
程 。 日 志 还 简化 并 加 速 文件 系统 检查 过 程 (所 有 系统 中 运行 的 必要 程序 ) 。 

创建 的 日 志 包含 一 个 文件 系统 中 按时 间 标 记 的 操作 列表 。 日 志 本 身 是 一 个 通常 位 于 固定 数 
据 段 的 文件 。 每 当 文件 变化 发 生 时 其 被 写 人 ， 并 可 以 由 文件 系统 恢复 和 检查 工具 读 取 。 如 图 9-16 
所 示 为 一 个 日 志 的 写 人 操作 。 此 过 程 中 ， 当 文件 系统 需要 将 一 块 数据 写 人 硬盘 中 时 ， 先 将 一 个 
记录 写 人 日志 声明 写 人 的 内 容 ， 随 后 进行 真实 写 人 操作 ， 最 终日 志 记 录 写 人 完成 。 





用 户 向 文件 
写 入 数据 






S| 
图 9-16 数据 写 人 过 程 的 日 志 描述 


在 写 人 过 程 中 若 发 生 问题 ， 可 以 通过 检查 日 志 来 确定 写 人 是 否 成 功 并 修复 问题 。 此 外 ， 例 
行 日 志 的 常规 磁盘 检查 程序 可 以 检查 文件 系统 。 


9.8.4 备份 


由 于 软件 漏洞 或 硬件 失灵 ， 计 算 机 中 的 数据 很 容易 丢失 。 设 备 损坏 时 HDD 中 存储 的 数据 
甚至 十 分 脆弱 。 因 此 ， 考 虑 到 数据 的 重要 性 ， 备 份 系统 是 计算 机 系统 必 不 可 少 的 一 部 分 。 

对 备份 系统 的 要 求 和 其 他 第 二 存储 系统 相同 一 一 将 文件 系统 的 部 分 或 全 部 内 容 恢复 到 之 前 
的 某 个 时 间 节 点 ， 包 括 : 

。 目录 结构 。 

。 文件 名 。 

。 文件 内 容 。 

。 文件 元 数据 〈 时 间 截 、 大 小 、 权 限 等 ) 。 

理想 的 恢复 操作 要 求 速 度 、 便 捷 性 ， 并 允许 全 部 或 可 选 恢复 〈 恢 复 所 有 文件 还 是 仅 恢 复 单 
一 文件 ) ， 同 时 节省 空间 〈 复 制 所 有 文件 不 总 是 最 佳 方案 ) 。 

完整 的 备份 指 所 有 文件 都 被 复制 并 存放 在 某 处 ， 这 个 方法 占用 大 量 存储 空间 并 且 速 度 很 
慢 , 但 是 易于 部 分 或 全 部 恢复 。 对 于 商业 或 其 他 重要 数据 ， 备 份 最 好 离线 存储 (并 经 过 加 密 保 
护 ， 因 为 安全 性 较 低 ) ， 并 且 最 好 在 文件 发 生 重大 变动 前 备份 。 

完整 可 靠 的 备份 完成 后 ， 之 后 的 备份 只 需要 存储 自 上 次 备份 后 变动 的 文件 ， 这 样 可 以 节省 
时 间 与 存储 空间 。 这 个 过 程 叫 作 增 量 备 份 。 由 于 需 存 储 的 数据 减少 ， 此 方法 比 完整 存储 更 快 
速 ,但 是 原始 完整 备份 损坏 或 丢失 时 无 法 单独 通过 增 量 备 份 恢复 所 有 文件 。 

差分 备份 仅 存储 上 次 备份 与 目前 不 同 的 数据 ， 在 某 些 系统 中 ， 如 果 一 个 文件 存在 时 间 很 
久 ， 仅 需要 备份 与 之 前 相 比 增加 的 部 分 。 此 方法 适用 于 数据 库 一 一 相 比 重新 存储 整个 数据 库 大 
幅 提升 效率 。 

以 上 提 到 的 所 有 备份 方法 都 要 求 : 

。 完整 且 正 确 。 

。 可 靠 。 

。 可 存储 。 

。 安全 (如 防止 数据 被 读 取 或 修改 ) 。 

有 时 以 额外 数据 的 形式 适当 在 备份 中 加 入 宛 余 会 更 有 效 ， 这 些 额 外 数据 可 以 帮助 系统 重 构 
或 恢复 由 于 错误 丢失 的 数据 。 
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对 于 很 多 用 户 来 说 ,活动 文件 系统 在 使 用 过 程 中 运行 备份 程序 十 分 便捷 ， 也 就 是 说 备份 或 
恢复 数据 不 会 停止 工作 进程 。 

备份 不 一 定 自动 进行 ， 也 不 要 求 复杂 昂贵 的 软件 。 备 份 基于 UNIX 的 系统 甚至 可 以 通过 从 
命令 行使 用 如 scp 或 rsync 的 实用 程序 完美 实现 ， 并 且 不 需要 专门 用 于 备份 的 硬盘 存储 器 ， 因 
为 备份 可 以 通过 云 存 储 、 移 动 硬盘 、 磁 带 机 、USB 存储 、CD-ROM 或 DVD-ROM 轻松 实现 。 

在 备份 存储 时 ， 除 了 考虑 频率 、 时 间 、 媒 质 、 验 证 方面 的 问题 ,还 要 考虑 备份 数据 的 物理 
安全 性 (包括 防 瓷 )、 对 物理 伤害 的 防御 (如 着 火 、 浸 水 )、 媒 介 的 使 用 寿命 、 购 买 存 储 的 成 
本 、 循 环 使 用 程度 ， 其 至 要 考虑 备份 数据 在 不 久 后 是 否 会 被 淘汰 。 很 多 用 户 仍 然 保存 着 备份 软 
盘 ， 然而 目前 已 经 没有 可 以 读 取 软盘 的 硬件 了 。 


9.9 小 结 


本 章 叙 述 的 内 容 很 多 ， 从 无 软件 的 裸 机 开始 (如 3 ~6 章 所 述 )， 到 软件 的 写 入 方式 (如 
第 8 章 所 述 ) ,填补 了 读者 对 软件 如 何在 计算 机 操作 系统 中 运行 并 服务 用 户 方面 的 知识 空白 。 

可 以 看 出 操作 系统 定义 了 我 们 使 用 计算 机 的 大 多 数 特性 ， 同 时 GUI 与 0S 不 能 一 概 而 论 。 
许多 0S 允许 用 户 在 几 种 GUI 中 进行 选择 ， 而 有 些 操 作 系统 禁止 此 操作 ， 有 些 甚 至 没有 GUI。 
类 似 地 ， 可 以 发 现 部 分 计算 机 一 一 尤其 是 体积 小 、 功 能 单一 、 可 靠 性 高 的 一 一 可 以 脱离 0S 实 
现 。 然 而 0S 可 以 为 程序 员 提供 很 多 便利 。 

除了 介绍 0S 的 角色 和 结构 ， 本 章 讲述 了 系统 引导 ,包括 从 闪存 引导 的 戏 和 人 式 系统 以 及 从 
硬盘 驱动 引导 的 系统 ， 还 介绍 了 进程 初始 化 、 交 换 、 优 先 处 理 以 及 检查 的 方法 。 

最 后 ， 本 章 阑 述 了 存储 媒体 中 组 织 数据 的 重要 性 ， 即 文件 系统 的 作用 ， 并 实现 低级 信息 写 
入 磁盘 盘 片 或 闪存 单元 到 文件 系统 、 文 件 夹 以 及 高 级 基于 树 的 文件 组 织 的 跨度 。 本 章 以 备份 结 
尾 ， 以 提醒 读者 及 时 备份 自己 的 重要 文件 。 


9.1 以 下 的 某 些 系统 在 无 操作 系统 的 情况 下 可 能 表现 更 优 。 不 必要 安装 操作 系统 的 情况 有 以 下 几 项 。 
(1) 电池 容量 较 低 ， 具 有 多 用 户 性 能 ， 内 置 无 线 网 络 的 智能 手表 。 

(2) 放 入 制作 面包 的 原料 后 ， 可 选择 有 多 个 豪 饪 程序 的 吐 司 机 ， 在 不 按 下 “停止 ”按钮 的 情况 下 ， 

机 器 会 将 吐 司 制作 完 。 无 网 络 连接 。 

一 个 大 规模 快速 CPU 聚合 某 个 从 处 理 器 ， 功 能 为 读 取 存 储 ， 主 处 理 器 用 于 处 理 DMA 和 网 络 数 

据 包 。 

(4) 家 用 平板 电脑 ， 每 个 成 员 可 以 远程 用 自己 的 账户 登录 并 查看 邮箱 和 私密 文件 。 

9.2 在 9.2.1 节 提 到 的 操作 系统 中 ， 选 出 以 下 应 用 适合 的 最 佳 选项 ， 并 陈述 原因 : 

(1) 用 于 控制 核电 站 控制 室 中 排 气 阀 的 系统 。 排 气 阀 要 求 配备 时 延 100ms 的 高 温 传感器 以 防止 融 
化 。 传 感 器 和 排 气 阀 驱 动 装置 连接 至 CPU。 
(2) 公司 中 的 网 络 附 加 存储 器 设备 。 要 求 能 安全 地 保存 一 些 工作 团队 的 重要 文档 。 

9.3 对 于 多 任务 操作 系统 中 的 新 建 进程 ， 说 出 五 种 会 自动 存储 于 PCB 的 信息 。 

9.4 调度 器 选择 问题 9.3 中 的 新 进程 在 CPU 中 运行 一 段 时 间 ， 随 后 切换 至 另 一 进程 ， 说 出 新 进程 从 
“运行 中 ”移动 到 “可 运行 进程 ”列表 时 调度 程序 会 在 PCB 中 更 新 的 项 目 。 

9.5 ”作为 程序 员 ， 假 设 读者 写 一 个 当前 多 任务 操作 系统 中 运行 于 用 户 空间 的 程序 。 由 于 程序 中 的 错误 ， 
部 分 程序 将 数据 写 和 人 一 个 用 于 其 他 程序 的 存储 块 。 说 明 可 能 发 生 的 情况 ， 其 中 的 一 个 程序 会 损坏 或 
崩溃 吗 ? 

9.6 一 个 嵌入 式 CPU 有 固定 的 引导 向 量 地 址 0x0000000。 此 地 址 链接 两 种 内 存 一 一 NAND 闪存 和 
SDRAM， 且 无 易 失 存储 。 哪 种 类 型 的 存储 会 位 于 存储 图 (如 从 地 址 0 开始 ) 的 下 部 区 域 ， 哪 种 会 
位 于 上 部 区 域 ? 说 明 原 因 。 
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init 程序 在 戏 入 式 Linux 系统 中 崩溃 了 。 当 内 核发 现 无 法 启动 init 时 ， 会 立刻 因 错 误 停止 还 是 尝试 另 
一 种 启动 方法 ? 

对 于 有 两 个 四 核 CPU 的 计算 机 ， 可 以 同时 处 理 的 最 大 数量 进程 是 多 少 ? 

当 Linux 调度 器 正在 运行 默认 调度 程序 ， 下 一 步 会 选择 哪 一 个 可 运行 任务 执行 ? 会 一 直选 择 静 态 优 
先 级 最 高 的 任务 吗 ? 陈述 原因 。 

使 用 读 取 共享 UNIX 大 型 主机 的 用 户 遇 到 这 样 的 问题 : 系统 软件 大 部 分 运行 缓慢 。 发 现 有 许多 用 
户 在 同一 个 计算 机 上 运行 系统 软件 后 ， 试 图 用 renice + 20 101 修改 软件 优先 级 。 假 设 他 们 的 软 
件 PID 是 101， 这 个 命令 可 以 改善 状况 并 加 速 程序 运行 吗 ? 

为 下 列 应 用 选 出 最 合适 的 存储 媒质 〈 磁 带 、HDD、SSD 、 并 行 闪 存 ) : 

(1) 便携 式 的 笔记 本 电脑 ， 要 求 开机 时 间 短 并 且 省 电 。 

(2) 未 来 会 用 到 的 TB 级 的 视频 档案 。 

(3) 在 大 学 校园 中 供 多 用 户 在 线 收看 的 最 新 好 莱 坞 电影 ， 存 放 于 网 络 附加 存储 设备 。 

(4) 智能 腕 表 设 备 中 的 非 易 失 性 文件 存储 。 

(5) 每 秒 存储 1000 个 小 文件 ， 每 个 文件 保存 1 分 钟 后 删除 的 系统 。 

主 引导 记录 通常 会 在 HDD 中 存储 于 哪 一 个 地 址 (C,H 与 S)? 

阐述 对 于 扩展 文件 系统 中 索引 节点 识别 文件 至 少 需要 的 5 种 信息 。 

使 用 ext3 文件 系统 的 计算 机 正在 将 一 个 文件 写 人 HDD 时 ， 系 统 供电 中 断 。 当 供电 恢复 时 ，ext3 文 
件 系统 的 什么 特性 会 提高 文件 恢复 的 概率 ? 

数据 中 心 为 计算 机 每 天 进行 日 常 增 量 备 份 。 每 天 结束 时 ， 自 动 脚本 寻找 每 台 计 算 机 新 建 或 改动 的 
文件 ， 并 保证 其 备份 于 独立 的 DVD-ROM 中 。 在 此 基础 上 不 做 任何 其 他 备份 措施 。 一 年 后 ， 某 计 
算 机 发 生 灾难 性 崩溃 。 虽 然 DVD-ROM 中 的 备份 都 可 用 ， 但 恢复 该 计算 机 的 文件 十 分 困难 。 解 释 
出 现 此 现象 的 原因 并 提出 未 来 改进 备份 策略 的 方法 。 
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连 接 性 





当今 社会 网 络 已 经 遍布 全 球 ， 计 算 机 之 间 互 联 互 通 ， 人 们 已 习惯 即时 通信 ， 与 远方 朋友 沟 
通 的 方式 也 不 再 仅仅 是 语音 、 电 话 、 邮 政 服务 。 大 多 数 人 对 互联 互通 习以为常 ， 几 乎 无 人 对 此 
产生 思考 ， 尤 其 是 互联 的 原因 。 

自 计算 机 问世 以 来 ,工程师 已 经 设计 出 许多 可 以 独自 高 效 计算 的 计算 机 。 除 了 某 些 极 少 研 
究 室 的 实验 ， 计 算 机 历史 中 大 多 数 设备 都 独自 运行 。 

在 万 维 网 问世 后 ， 人 们 会 认为 将 计算 机 通过 网 络 与 世界 相连 或 连 人 企业 内 部 十 分 容易 。 几 
乎 没 人 会 购买 无 法 上 网 的 台式 或 笔记 本 式 计 算 机 ， 更 不 会 有 人 会 买 智 能 手机 后 不 连接 至 移动 电 
话 网 络 来 打 电 话 、 发 信息 、 使 用 数据 。 在 当今 社会 人 们 如 果 想 处 于 不 联网 的 环境 ， 可 能 需要 主 
动 断 开 网 络 连 接 。 

本 章 将 会 介绍 网 络 世 界 从 仅 有 少数 独立 的 计算 机 发 展 到 普遍 高 度 连接 的 计算 机 网 络 的 原因 
及 方法 。 本 章 不 会 介绍 网 络 科 技 (第 11 章 会 涉及 ) ， 而 是 先 介绍 连接 性 的 概念 。 这 些 概 念 看 上 
去 很 普遍 且 和 使 用 的 科技 无 关 。 例 如 用 于 以 太 网 和 正 EE 802. 11 与 无 线 城 域 网 和 蓝牙 的 概念 相 
同 。 读 者 可 能 会 将 此 概念 延伸 到 计算 机 硬件 和 软件 的 其 他 领域 ， 甚 至 经 营 商业 。 


10. 1 连接 的 原因 与 方法 

当 独立 的 计算 机 最 初 在 研究 室 用 于 计算 时 ， 存 在 某 研 究 小 组 需要 和 其 他 小 组 分 享 数 据 的 情 
况 。 这 些 数 据 可 能 是 实验 结果 或 需要 证 实 的 计算 。 

当时 ， 发 送 一 个 “大 ”数据 块 〈 大 约 1KB) 的 常用 方法 是 将 其 存储 于 打 孔 卡片 或 磁带 与 
光盘 ， 即 某 种 物理 存储 媒介 。 随 后 发 送 者 会 将 媒介 通过 速递 或 邮政 服务 发 送 给 接收 方 。 

接收 方 随后 将 存储 媒介 加 载 于 磁带 机 、 光 盘 机 或 打 孔 卡片 机 从 而 读 取 数 据 ， 并 通过 电线 连 
接 计 算 机 转换 数据 。 有 时 工程 师 会 想到 用 足够 长 的 电线 将 两 端的 计算 机 相连 并 直接 传输 数据 。 

问题 是 用 高 低 电 平 表 示 “0” 和 “1” 的 数据 信号 在 如 此 长 的 距离 下 性 能 较 差 ， 工 程 师 此 时 需 
要 考虑 的 是 将 数据 编码 ， 使 其 在 长 距离 中 鲁 棒 性 高 ， 并 且 加 快 通信 速度 。 数 据 编码 包括 数据 压缩 
与 错误 检测 ， 随 后 变 成 一 个 重要 研究 领域 且 引 起 了 许多 重大 发 现 ， 巩 固 了 现代 电子 通信 的 基础 。 


10. 1.1 一 对 一 通信 

编码 后 ， 数 据 可 以 通过 电线 稳定 地 从 一 个 计算 机 发 送 至 男 一 个 ,然而 需要 在 时 间 与 距离 之 
间 权 衡 (虽然 时 间 和 距离 限制 如 今 已 经 得 到 很 多 改善 )。 这 就 实现 了 两 个 计算 机 通过 专用 电线 
相连 。 图 10-1 展示 了 这 个 简单 连接 的 方法 ,包括 两 个 计算 机 和 一 根 电线 。 在 此 基础 上 会 介绍 
更 多 复杂 连接 模型 。 

图 10-1 的 链 路 没有 箭头 〈 往 后 几 页 相同 ) ， 由 于 本 书 中 假定 为 双向 连接 链 路 。 这 种 双向 连 
接 也 叫 双 工 ， 下 表 展 示 了 更 多 可 能 性 。 








类 型 描述 

单 工 数据 单 向 传输 

半 双 工 数据 可 以 在 任意 方向 传输 ， 但 是 无 法 同时 进行 
全 双 工 数据 可 以 同时 双向 传输 








图 10-1 两 个 计算 机 一 对 一 连接 


半 双 工 系统 要 求 一 种 决定 当前 输出 数据 方向 〈 无 法 停止 传输 ) 的 机 制 。 以 语音 通信 为 例 ， 
CB 广播 和 对 讲 机 即 遵循 此 原理 。 对 话 在 单一 信道 进行 ， 一 方 说 话 时 必须 在 结尾 用 词 “ 结 束 ”， 
表明 其 处 理 信道 来 让 对 方 使 用 。 对 话 双 方 轮流 讲话 ， 一 方 结束 时 交换 ， 并 以 “通话 结束 ” 终 
止 对 话 。 当 计算 机 通过 一 条 电线 〈 或 信道 ) 共享 半 双 工 链 路 时 便 采 取 此 种 机 制 ， 类 似 的 系统 
不 计 其 数 。 


10. 1.2 一 对 多 通信 

计算 机 工程 师 无 法 长 期 满足 于 一 对 一 链 路 ， 不 久 便 希 望 使 用 更 多 线路 连接 其 他 计算 机 。 事 
实 上 ， 用 于 连接 计算 机 的 都 是 专用 电线 。 随 着 计算 机 数量 的 增加 ， 电 线 的 需求 也 大 幅 上 涨 。 如 
图 10-2 所 示 为 5 台 计 算 机 彼此 相连 的 情况 。 每 个 计算 机 管理 员 要 维护 4 条 独立 链 路 ， 图 片 同时 
说 明 即 使 一 个 系统 中 的 计算 机 数量 很 少 ， 也 需要 有 许多 电线 ， 看 上 去 比较 杂乱 。 





图 10-2 多 台 计 算 机 相互 连接 ， 每 台 计 算 机 间 有 直接 链 路 


当 数 据 编码 技术 发 展 到 一 定 阶段 ， 可 以 使 用 调制 解 调 器 通过 电话 线 发 送信 号 。 此 方法 让 通 
信 更 加 便捷 ， 这 得 益 于 用 交换 机 路 由 数据 链 路 ， 如 图 10-3 所 示 。 

电话 网 络 是 电路 交换 的 ， 意 味 着 每 台 计 算 机 本 来 有 一 条 电线 连接 到 最 近 的 交换 机 ， 交 换 机 
间 有 大 量 电线 。 要 进行 一 个 通话 (或 数据 连接 ) ， 呼 叫 者 到 交换 机 的 电线 要 与 交换 机 间 的 电线 
相连 ， 最 后 长 距离 交换 机 间 的 电线 连接 至 被 呼叫 者 。 由 于 通话 两 端 由 专用 电线 相连 ， 此 类 通信 
被 称 为 电路 交换 ， 且 此 电路 在 通话 (通信 和 链 路 ) 中 国定 不 变 。 

读者 可 能 在 纪录 片 或 博物 馆 中 见 到 早期 的 电话 交换 机 ， 并 发 现 接 线 员 需要 在 接线 总 机 不 断 插 
拔 电线 。 这 就 是 通过 连接 通话 双方 的 电线 开启 通话 的 过 程 。 由 于 此 过 程 为 人 工 操 作 ， 早 期 电话 没 
有 拨号 功能 与 号 码 盘 ， 用 户 只 需要 要 求 操作 员 进 行 连接 即 可 。 拨 号 功能 与 0 ~9 和 #、* 按钮 在 很 
久 以 后 出 现 ， 这 个 方法 可 以 让 拨号 者 通过 一 组 数字 使 用 自动 交换 机 进行 连接 ， 避免 了 人 工 介 入 。 

长 距离 电话 通信 由 以 下 几 段 组 成 一 一 从 拨号 者 到 当地 交换 机 的 电话 线 ， 当 地 交换 机 到 其 他 
交换 机 的 电话 线 ， 以 及 其 他 地 方 到 接收 方 的 电话 线 。 三 段 连接 到 交换 机 的 电话 线 组 成 了 一 段 通 
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话 的 单一 链 路 。 当 代 计 算 机 网 络 中 也 有 类 似 的 场景 ,虽然 连接 了 成 千 上 万 的 计算 机 ,实际 上 也 
是 由 大 量 更 小 的 一 对 一 链 路 组 成 ， 主 要 的 区 别 是 此 网 络 可 以 共享 电线 。 





图 10-3 ”两 个 位 置 的 计算 机 通过 交换 机 通信 ， 每 台 计算 机 连接 到 一 个 交换 机 ， 交 换 机 
彼此 相连 。 实 时 通话 ( 灰色 线路 ) 占用 了 每 部 分 的 整 条 物理 线路 


10. 1.3 包 交 换 


虽然 可 以 通过 电话 线 通信 ， 但 除了 在 信息 简短 的 情况 下 ， 这 种 方法 的 便捷 性 和 效率 都 非常 
低 。 尽 管 复杂 的 编码 技术 仍 在 发 展 ， 数 据 传 输 速度 依然 严重 受 限 。 计 算 机 之 间 通 信 的 链 路 仍然 采 
用 固定 的 专用 电线 ， 本 质 上 还 是 一 对 一 链 路 ， 唯 一 的 区 别 是 用 户 可 以 选择 一 对 一 通信 的 对 象 。 

即使 对 发 达 国家 来 说 ， 考 虑 到 铜 的 价格 、 铺 设 、 维 护 和 修复 连接 到 每 家 每 户 的 电线 的 费 
用 ， 电 话 线 都 是 十 分 虹 贵 的 ， 因 此 产生 了 使 用 更 有 效 、 更 便宜 的 链 路 的 需求 ， 在 此 基础 上 出 现 
了 许多 共享 电线 的 方式 。 

最 重要 的 共享 机 制 ， 也 是 当今 社会 大 多 数 通信 和 网 络 系统 使 用 的 机 制 ， 应 该 就 是 包 交 换 
了 。 一 个 用 于 通信 的 数据 块 先 封装 入 小 的 数据 包 ， 再 通过 发 送 端 和 接收 端 间 的 链 路 传输 ， 最 后 
接收 端 将 数据 解 封装 。 

如 图 10-4 所 示 为 简单 的 基本 原理 ， 但 是 这 种 架构 包含 许多 隐藏 的 复杂 问题 ， 每 个 问题 都 
需要 由 大 量 独创 性 的 方法 解决 。 最 重要 的 一 点 是 一 根 电 线 可 以 从 不 同 的 发 送 端 向 不 同 的 接收 端 
发 送 数据 。 数 据 包 可 能 要 轮流 等 待 传送 ， 由 于 这 个 过 程 很 快 发 生 ， 给 用 户 的 感觉 是 通信 从 不 间 
断 且 完 全 双 工 。 
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图 10-4 包 交 换 允 许多 个 计算 机 共享 同一 个 链 路 ,每 台 计 算 机 产生 并 
传输 数据 包 ， 随 后 数据 包 被 路 由 至 正确 目的 地 
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今天 我 们 见 到 的 所 有 数字 通信 系统 几乎 都 是 数据 包 分 组 化 的 ， 包 括 移动 电话 通信 、Wifi、 
WiMax、 以 太 网 、 电 缆 调制 解 调 系统 、 数 字 电 视 、 数 字 广 播 标准 以 及 大 多 数 陆地 电话 网 。 第 11 
章 将 会 介绍 数据 包 的 通用 标准 ， 称 为 TCP/IP (传输 控制 协议 /因特网 协议 ) ， 但 是 商业 应 用 中 
还 有 很 多 其 他 理论 。 


10. 1.4 简单 通信 拓扑 

通信 拓扑 指 的 是 同一 个 网 络 中 不 同 计算 机 连接 的 方式 ， 也 叫 网 络 架 构 ，10. 5 节 会 详细 介 
绍 此 部 分 。 系 统 的 拓扑 或 架构 会 对 性 能 产生 重要 影响 ， 也 是 网 络 系统 设计 的 主要 组 成 部 分 。 例 
如 ， 图 10-5 所 示 为 将 5 台 计 算 机 连接 的 2 个 可 选 方案 。 每 种 方案 使 用 的 电线 数量 相同 ， 但 是 2 
个 方案 有 以 下 主要 区 别 。 





图 10-5 5 台 计算 机 的 环 状 拓扑 〈 左 图 ) 和 星 状 连接 〈 右 图 ) 。 
两 个 场景 中 每 台 计 算 机 只 有 一 条 单一 线路 


路 线 选择 。 如 果 环 状 网 络 要 从 计算 机 1 向 计算 机 3 发 送 数据 3， 可 以 先 发 给 计算 机 2 
( 即 链 路 为 1 -2 -3) ， 但 是 还 有 一 个 可 能 的 路 线 ， 即 1-5-4-3。 第 二 个 路 线 有 更 
多 “ 跳 数 ”， 但 是 当 网 络 某 个 节点 故障 时 ， 数 据 包 还 有 其 他 路 径 传输 。 星 状 网 络 就 
没有 这 种 功能 ， 这 种 拓扑 中 没有 其 他 可 选 路 径 ， 当 网 络 任意 部 分 故障 时 没有 备 选 
方案 。 

数据 包 延 迟 / 跳 数 。 在 5 个 计算 机 的 系统 中 ， 完 全 环 状 网 络 中 任意 两 个 计算 机 的 路 线 不 
会 超过 两 跳 ， 星 状 网 络 也 是 如 此 。 然 而 当 网 络 规模 增加 时 ， 星 状 网 络 仍然 可 以 在 两 跳 
内 完成 路 由 ， 环 状 网 络 则 无 此 功能 。 例 如 ,在 一 个 有 100 台 计 算 机 的 网 络 中 ， 环 状 网 
络 中 由 计算 机 1 到 计算 机 50 需要 50 跳 ， 更 多 跳 数 会 伦 费 多 余 的 时 间 。 由 于 数据 包 每 
通过 一 跳 都 需要 少量 时 间 ，50 跳 意味 着 速度 较 慢 的 通信 链 路 。 

路 由 是 数据 包 从 一 个 网 络 传输 到 另 一 个 网 络 的 过 程 。 在 图 10-5 中 ， 星 状 网 络 在 网 络 中 
心 进行 路 由 ， 但 是 其 他 计算 机 仅 需 要 路 由 与 自己 相关 的 数据 包 (假设 数据 包 发 送 正 
确 ) 。 相 比 之 下 ， 环 状 网 络 的 每 个 计算 机 都 需要 参与 路 由 ， 无 论 是 与 自己 有 关 或 是 经 过 
自己 。 如 果 计 算 机 4 发 送 大 量 数据 给 计算 机 3， 会 让 计算 机 3 发 生 拥塞 。 

带宽 的 单位 通常 为 位 每 秒 〈 在 现代 网 络 为 GB/s)， 是 描述 网 络 中 数据 包 运 用 组 件 的 特 
性 。 链 路 (物理 线路 加 上 接收 端 ) 有 额定 最 大 带宽 ， 每 个 计算 机 与 网 络 的 接口 也 是 如 
此 。 在 星 状 网 络 中 ， 中 心 节点 带宽 有 限 ， 成 为 大 型 网 络 的 主要 瓶颈 。 每 个 数据 包 都 需 
要 通过 一 个 节点 ， 决 定 了 网 络 中 每 条 数据 的 最 大 传输 速度 和 延迟 。 

星 状 网 络 的 中 心路 由 器 实际 上 是 另 一 个 计算 机 。 因 为 在 大 多 数 网 络 中 控制 数据 包 是 一 
个 在 软件 控制 下 的 任务 。 如 图 10-5 所 示 ， 该 计算 机 需要 5 个 网 络 接口 ， 是 一 个 很 大 的 
数目 〈 虽 然 易于 实现 ) 。 然 而 ， 网 络 规模 增长 时 ， 网 络 接口 的 数量 成 比例 增长 并 且 会 
超过 大 多 数 计算 机 的 自身 物理 能 力 。 环 状 网 络 中 的 每 台 计 算 机 只 需要 两 个 接口 ， 每 台 
计算 机 花费 充足 的 时 间 处 理 其 他 计算 机 的 数据 包 ， 这 是 星 状 网 络 无 法 实现 的 。 
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以 上 的 简短 总 结 强调 了 两 个 完全 不 同 的 网 络 拓扑 中 存在 的 问题 。 当 计算 机 数量 增多 时 ， 星 
状 网 络 可 以 保证 更 少 跳 数 〈 因 此 平均 通信 速度 更 快 ) ， 然 而 其 性 能 的 瓶颈 为 低 容 错 率 ， 并 且 仅 
依靠 一 个 中 心计 算 机 作为 路 由 器 来 处 理 大量 数 据 包 。 环 状 网 络 中 的 计算 机 有 两 倍 于 星 状 网 络 的 
接口 ， 并 且 只 能 进行 简单 的 数据 包 处 理 ， 对 某 个 故障 或 错误 容忍 度 高 ， 但 是 在 网 络 规模 增 大 时 
效率 降低 。 

无 论 星 状 和 环 状 网 络 熟 好 熟 坏 ， 除 某 些 特殊 系统 外 ， 现 代 网 络 部 署 都 没有 采用 其 中 任何 一 
个 。 然 而 其 他 拓扑 都 或 多 或 少 结合 星 状 或 环 状 网 络 的 特点 ， 并 具有 它们 的 许多 优 缺 点 。10. 5 
节 会 深入 探讨 。 


10.2 系统 要 求 


如 今 存 在 各 式 各 样 的 计算 机 通信 理论 ， 其 中 许多 已 经 发 展 为 解决 在 两 个 计算 机 间 传 输 信 息 
问题 的 独到 方案 。 有 些 方案 专门 用 于 某 种 拓扑 或 媒质 ， 并 且 仅 依赖 于 以 下 介绍 的 网 络 技术 。 有 
些 方案 几乎 在 所 有 网 络 中 都 普遍 使 用 。 下 面 单独 探索 每 个 技术 ， 同 时 参考 如 图 10-6 所 示 的 一 
般 通 信 场 景 。 在 这 个 场景 中 ， 发 送 端 和 接收 端的 信道 偶尔 会 遇 到 错误 ， 这 是 现实 生活 中 经 常 发 
生 的 问题 ， 因 此 通信 中 需要 用 到 以 下 方法 处 理 问题 。 










三 Ti = 已 品 蕊 了 


10-6 ”一 对 通用 接收 /发 送 器 通过 信道 发 送 数据 ， 左 侧 为 发 送 端 ， 右 侧 为 接收 端 





10. 2. 1 分 组 化 


分 组 化 是 将 大 的 数据 块 分 割 为 尺寸 相同 的 更 小 数据 包 的 过 程 。 此 过 程 由 发 送 端 准备 发 送 数 
据 时 完成 ， 也 称 为 分 割 技术 ， 与 接收 端 相应 的 反 向 匹配 过 程 称 为 解 封 装 。 

由 于 发 送 端 和 接收 端 会 出 现 错误 ， 因 此 将 数据 分 成 包 非 常 重要 。 误 码 率 通常 指 接收 端 收 到 
1bit 数据 出 错 的 概率 ， 这 个 数据 跨度 从 噪声 很 多 链 路 的 10“ (每 一 百 个 包 有 一 个 出 错 ， 或 
0.01) 到 高 质量 连接 线路 的 10 (10 数据 包 有 1 个 错误 或 0. 000 000 000 001)。 

在 所 有 计算 机 的 可 执行 文件 的 数据 中 ， 只 要 1bit 有 错 ， 整 个 文件 就 会 朋 溃 。 假 如 一 个 文件 
从 一 个 地 方 发 送 到 另 一 个 地 方 ， 只 要 有 一 个 错误 发 生 ， 整 个 文件 都 要 重 传 ， 除 非 错误 被 检测 并 
修正 。 对 于 大 文件 来 说 ， 重 传 费时 费力 。 因 此 分 组 化 用 于 将 文件 (数据 块 ) 分 成 小 的 数据 包 。 
每 个 数据 包 有 一 个 纠 错 码 ， 从 而 在 接收 时 进行 检测 ， 以 确定 包 中 的 哪 一 位 发 生 了 错误 。 当 错误 
被 检测 到 ， 不 用 重 传 整个 文件 ， 而 仅 需 要 重 传 骨 省 的 数据 包 。 

一 般 来 说 ， 信 道 的 误 码 率 越 高 ， 包 的 尺寸 应 该 越 小 。 因 为 接收 过 程 中 出 错 的 概率 更 高 。 无 
线 通信 系统 的 包 尺 寸 比 有 线 系统 更 小 〈 因 为 信道 噪声 更 大 ， 所 以 具有 更 高 的 误 码 率 ) 。 

分 组 化 的 另 一 成 果 是 在 每 个 包 中 加 入 多 余 信 息 一 一 一 个 纠 错 码 ， 以 及 序列 数 (序列 数 
的 作用 是 在 错误 发 生 时 ， 接 收 端 用 它 来 确定 重 传 的 数据 包 )。 这些 多 余 信 息 会 占用 带宽 。 这 
些 信息 大 小 为 几 位 ， 但 不 是 用 户 数据 ， 即 不 是 正在 传输 的 文件 。 由 于 在 每 个 数据 包 中 加 入 
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了 固定 数量 的 信息 ， 发 送 文件 时 用 更 少 的 数据 包 会 提高 效率 。 下 表 总 结 了 开销 和 容错 率 的 
权衡 。 












错误 行为 开销 














了 检测 到 错误 后 需要 重 传 的 数据 少 ，| 。 开销 更 大 ， 因 为 有 更 多 额外 数据 要 发 送 〈 例如 序列 号 
因此 适合 噪声 更 大 的 信道 和 错误 检测 码 ) 
大 数据 包 检测 到 错误 后 需要 重 传 的 数据 多 开销 更 小 ， 因 为 总 体 的 数据 包 更 少 ,在 可 靠 的 通信 信 


道中 效率 更 高 


现在 回顾 10. 2. 5 节 的 错误 控制 过 程 ， 通 过 错误 行为 来 解释 分 组 化 的 重要 性 。 

分 组 化 的 另 一 个 重要 作用 体现 在 实时 通信 ， 如 果 计 算 机 每 次 必须 发 送 整个 文件 ， 视 频 流 和 
音频 流 包括 语音 和 视频 通话 会 不 复 存在 。 这 些 应 用 中 ,一 帧 的 视频 (或 一 个 时 间 片 的 音频 ) 
被 编码 并 迅速 发 送 ， 接 收 程序 才能 接收 并 播放 。 将 整个 视频 作为 一 个 文件 发 送 并 在 接受 后 被 播 
放 ， 这 在 多 种 应 用 中 还 没 能 实现 。 


10. 2.2 编码 与 解码 


在 分 组 化 后 ， 待 发 送 的 数据 为 二 进 制 数 ， 可 能 从 64bit 到 2048B 不 等 ， 但 是 无 论 数据 怎样 
传输 ， 都 是 由 一 个 二 进 制 数 序列 组 成 的 。 

计算 机 只 能 理解 数字 信息 中 的 1 和 0， 因 为 这 类 数据 才能 被 计算 机 有 效 处 理 ,但 是 真实 世 
界 的 数据 是 模拟 数据 。 数 据 的 载体 是 变动 的 ， 如 电压 、 电 流 或 不 同 频 率 变 量 的 组 合 。 

编码 就 是 将 二 进 制 的 数据 包 变 形 为 适合 在 特定 媒介 中 传输 的 符号 。 许 多 编码 方法 采用 一 个 
符号 代表 1bit 数据 ， 也 有 一 些 将 1024 、2048 或 更 多 位 变 为 一 个 符号 的 方法 。 有 时 整个 二 进 制 
数据 包 仅 仅 为 一 个 待 发 送 的 符号 (这 种 方法 比较 少见 ， 通常 一 个 数据 包 可 以 变 为 符号 序列 )。 
编码 技术 可 以 根据 距离 、 比 特 率 ， 以 及 控制 方式 和 媒质 类 型 调整 ， 因 此 低 强 度 的 WiFi 链 路 速 
度 一 般 比 高 强度 链 路 慢 ， 郊 区 的 用 户 连接 速度 也 比 市 区 慢 。 

解码 是 编码 的 相反 过 程 ， 用 于 接收 数据 ， 指 将 接收 到 的 符号 变 回 二 进 制 数据 的 过 程 。 


10.2.3 传输 


无 论 有 线 或 无 线 ， 待 发 送 的 符号 序列 一 次 向 传输 介质 输出 一 个 符号 。 在 许多 系统 中 ， 包 括 
以 太 网 或 WiFi， 发 送 端 需要 保证 没有 其 他 系统 在 占用 信道 (或 电线 )。 因 此 传输 前 要 感知 信道 
状态 ， 在 传输 开始 后 也 会 等 待 一 段 时 间 (考虑 到 两 个 设备 同时 开始 传输 的 情况 )。 在 11. 3 节 ， 
将 会 介绍 以 太 网 技术 的 更 多 细节 ， 包 括 发 送 端 暂停 或 在 冲突 发 生 时 “ 回 退 ” 进 程 。 

发 送 端 是 将 计算 机 数字 世界 与 现实 模拟 世界 相连 的 设备 。 需 要 将 电压 、 电 流 或 调频 等 需要 
通过 媒介 传输 的 信息 变 为 符号 。 


10. 2.4 接收 


接收 端 是 发 送 端的 反 向 设备 。 接 收 数据 指 识别 来 自传 输 媒 介 的 符号 并 将 其 变 为 计算 机 中 的 
数字 形式 。 许 多 接收 器 也 需要 感知 信道 并 测量 链 路 质量 ,通信 软件 可 以 完成 此 操作 并 进行 
调整 。 

接收 端 并 不 总 是 接收 传输 的 内 容 ， 传 输 中 的 噪声 和 错误 会 干扰 接收 过 程 ， 甚 至 造成 接收 内 
容 为 错误 的 甚至 元 余 的 虚假 信号 。 其 他 发 送 端 也 会 产生 干扰 ， 有 时 数据 包 会 重 全 ,适时 移 位 或 
者 丢失 某 位 数据 〈 造 成 所 有 的 位 序列 错位 ， 甚 至 崩溃 ) 。 

在 无 线 网 络 中 符号 错误 十 分 常见 ， 但 是 在 有 线 网 络 中 出 错 的 原因 一 般 是 拔 出 网 络 电缆 ， 即 
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有 线 网 络 的 一 般 状 态 是 “完全 正常 ”或 “完全 断 开 ”。 相 比 之 下 ， 无 线 系统 误 码 率 高 低 不 一 。 
无 线 通信 因 其 自身 特点 ， 是 一 个 重大 的 研究 领域 ， 甚 至 比 计算 机 架构 更 重要 。 近 年 来 许多 
新 发 现 推 动 了 数字 通信 的 发 展 ， 无 论 是 计算 机 网 络 还 是 语音 通信 都 受到 影响 ， 因 此 现代 世界 已 
经 完全 变 为 数字 化 通信 。 
10. 2.5 错误 控制 
错误 检测 方案 可 以 检测 到 数据 包 中 的 一 些 错 误 。 在 发 送 端 末 尾 的 算法 形成 数据 包 内 容 中 的 
校 验 和 并 加 入 数据 包 ， 如 图 10-7 所 示 。 在 接收 端 ， 同样 的 算法 从 接收 到 的 数据 包 形 成 第 二 个 


校 验 和 ， 将 两 者 进行 对 比 ， 如 果 两 者 相同 ， 则 收 到 的 数据 包 准确 无 误 。 数 据 包 里 任 一 位 出 错 都 
会 造成 第 二 个 校 验 和 与 第 一 个 不 同 。 


发 送 端 接收 端 
数据 包 i 误 码 
信道 
DOOOOOOOOO DOOROOOOOOO 
Gooogoooooco ~ | Gooooaooo 
Gooooooooo Dooooooooo 
和 D; 
EDooooooSNN 






Gageagabey 
| Lele lel D ‘EB 口 





b) 


图 10-7 在 噪声 较 大 的 链 路 中 发 送 数据 包 可 能 会 发 生 误 码 。a) 不 加 元 余 信 息 时 ， 接 收 端 不 能 检测 到 误 
码 。b) 在 包 中 加 入 循环 宛 余 校 验 位 可 以 让 接收 端 检测 到 错误 ， 可 能 发 生 在 数据 位 或 校 验 位 

通过 在 数据 包 加 入 多 余 信息 ， 就 可 以 在 接收 到 的 数据 包 中 检测 甚至 校正 位 错误 。 图 10-7 
所 示 的 理论 非常 简单 ， 循 环 匈 余 校 验 (CRC) 复杂 度 低 且 在 硬件 中 运行 速度 快 。 然 而 对 于 噪声 
链 路 来 说 这 种 措施 依然 不 够 ， 如 果 在 数据 包 和 校 验 位 中 都 有 !1 位 错误 〈 即 图 10-7b 中 的 两 种 错 
误 同 时 发 生 ) ， 接 收 端的 CRC 算法 就 会 在 错误 数据 包 运 行 ， 并 且 产 生 的 校 验 和 会 和 接受 的 错误 
校 验 和 匹配 ， 因 此 系统 不 会 检测 到 任何 错误 。 

在 7. 10 节 中 曾经 简短 介绍 过 卫星 存储 的 错误 校正 方法 。 该 原则 对 通信 链 路 也 同样 适用 。 
一 般 来 说 ， 可 以 使 用 更 复杂 〈 功 耗 大 且 费 时 ) 的 算法 或 在 每 个 数据 包 加 入 额外 信息 来 检测 重 
大 错误 。 虽 然 简单 的 CRC 只 能 检测 出 1 位 错误 ， 但 更 复杂 的 CRC 或 加 入 更 多 校 验 和 可 以 同时 
检测 出 更 多 错误 。 

对 数据 包 中 的 简单 错误 检测 带 来 的 复杂 度 和 额外 带宽 的 成 本 很 小 ， 几 乎 所 有 的 通信 系统 都 
会 使 用 ， 部 分 方法 会 采取 更 多 措施 。 

检测 到 错误 后 ， 系 统 主要 会 做 出 三 类 响应 : 第 一 类 是 忽略 错误 ( 比 读者 预期 的 更 为 常见 ， 
参考 框 10. 1) ， 第 二 类 是 请 求 重 传 错误 数据 ， 第 三 类 就 是 找到 校正 错误 的 方法 。 因 为 每 种 主动 
的 响应 措施 都 很 重要 ， 随 后 会 讨论 关于 错误 校正 和 重 传 的 内 容 。 
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10. 2. 5. 1 纠 错 码 

纠 错 码 (ECC) 使 用 复杂 的 算法 和 多 余 的 校 检 位 完成 错误 校正 ， 并 且 对 多 位 错误 鲁 棒 性 都 
很 高 。 在 这 些 系统 中 ， 接 收 端 不 仅 能 检测 错误 ， 还 能 校正 错误 。 正 如 CRC 一 样 ， 可 以 通过 更 
复杂 的 算法 (速度 更 慢 且 功 耗 更 高 ) 与 更 多 的 校 检 位 来 校正 更 多 错误 。 

在 数据 包 中 加 入 多 少 纠 错 码 是 一 个 开放 性 问题 。 系 统 设 计 师 可 以 选择 不 加 入 任何 错误 检 
测 ， 也 可 以 选择 加 入 许多 纠 错 码 来 校正 大 量 错误 ， 但 是 需要 消耗 计算 和 带宽 效率 ， 增 加 有 效 的 
纠 错 码 对 计算 量 要 求 更 大 ， 因 此 速度 较 慢 上 且 效 率 低 ， 同 时 还 需要 多 余 的 校 验 位 ， 意 味 着 发 送 的 
信息 有 更 大 开销 。 这 种 方法 并 不 会 作用 于 竺 发送 的 “用 户 数据 ”。 实 际 上 ， 系 统 设计 师 在 实际 
应 用 中 要 考虑 以 下 因素 : 

。 预期 的 误 码 率 范围 。 

。 发 送 额外 纠 错 码 可 用 的 带宽 。 

。 传输 速率 〈 高 复杂 度 算法 在 高 速率 系统 中 不 适用 ) 。 

e。 发 送 端 和 接收 端 都 有 足够 计算 资源 来 完成 纠 错 。 有 些 系统 是 非 对 称 的 ， 在 发 送 端 和 接 

own ee 
。 数据 重要 性 ， 是 否 一 定 需要 纠 错 。 
常见 错误 

我 们 日 常生 活 中 使 用 的 每 个 通信 信道 都 存在 很 多 误 码 。 有 些 误 码 极 易 发 生 ， 有 些 则 比较 少见 。 计 算 
机 通常 在 我 们 未 意识 到 的 情况 下 处 理 无 线 或 有 线 网 络 中 发 生 的 误 码 一 一 读者 可 能 会 发 现 连 接 速 度 降 低 。 
然而 。 许 多 读者 虽然 对 误 码 不 了 解 ， 但 可 能 了 解 误 码 导 致 的 结果 。 这 些 可 见 错误 通常 发 生 在 未 修正 的 通 
信 信 道 。 例如， 第 11 章 会 介绍 用 户 数据 报 协议 (UDP) 误 码 如 何 发 生 并 停止 发 送 。UDP 在 实时 通信 
(如 视频 、 音 频 、 语 音 ) 的 数据 流 中 十 分 常见 

在 音频 通话 中 或 在 线 听 音 乐 时 ， 误 码 表现 为 声音 中 的 杂音 。 当 新 闻 广 播 的 发 送 区 域 距 接收 者 很 远 时 
可 能 就 会 出 现 这 些 现象 。 对 于 视频 和 图 片 来 说 ， 未 纠正 的 误 码 同样 明显 。 下 图 为 新 西 兰 库 克 山 的 例子 ， 
从 中 可 以 看 出 ， 相 比 右 图 有 两 个 不 同位 置 产生 误 码 ， 左 图 经 过 重新 处 理 后 纠正 了 误 码 。 每 个 误 码 使 
152KB 的 JPEG 图 片 (0.001% 出 错 ) 里 32 位 的 值 乔 溃 ， 加 上 JPEG 使 用 的 编码 ， 误 码 造成 的 后 果 更 加 明 
显 一 一 中 间 图 片 的 色 带 和 亮度 都 有 变化 ， 右 边 图 片 的 一 部 分 发 生 移 位 。 











注 : 知识 共享 授权 的 新 西 兰 南 部 岛屿 的 库 克 山 图 片 ， 在 此 感谢 https:/pixabay. com 提供 免费 下 载 权 限 。 损 坏 
的 版 本 由 作者 通过 十 六 进 制 编辑 器 生成 


一 个 误 码 造 成 如 此 巨大 的 影响 ， 人 然后 从 
左 到 右 沿 直线 向 下 进行 处 理 ， 直 到 进程 到 达 图 片 右 下 角 。 逐 行 解码 则 会 导致 一 块 错误 蔓延 至 其 他 数据 块 。 
在 中 间 这 张 图 中 ,错误 一 直 蔓延 到 图 片 最 下 端 ， re le E 2 帧 一 帧 地 编码 。 对 于 
动态 图 片 来 说 ， 顺 序 解码 不 只 是 停 在 当前 帧 ， 有 时 还 会 蔓延 至 其 他 帧 。 这 就 是 DVD 的 误 码 有 时 会 导致 接 
下 来 几 秒 ， 画 面 出 现 崩溃 、 蓝 屏 、 大 面积 马赛 克 等 情况 的 原因 ， 有 时 还 会 导致 画面 抖动 或 闪烁 。 

在 11 章 中 比较 UDP 和 TCP 时 会 回顾 这 些 内 容 。 

10. 2. 5.2 ACK/NACK 协议 

当 数 据 包 较 小 时 ， 双 向 通信 开销 较 低 ， 误 码 率 不 高 ， 所 以 设计 一 个 重 传 出 错 数 据 包 的 系统 
比 纠 错 更 好 。 这 就 需要 进行 错误 检测 ， 相 比 错误 校正 更 加 简单 、 快 速 ， 更 节省 带宽 ( 回顾 之 前 
章节 )。s 
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重 传 协议 不 适用 于 链 路 开销 高 或 速度 慢 (如 卫星 通信 ) 的 系统 ， 以 及 非 对 称 和 共享 通信 
(如 广播 服务 )， 也 不 适用 于 高 误 码 率 系 统 ， 因 为 重新 发 送 的 数据 包 仍 然 会 衣 演 ， 最 终 导致 系 
统 大 部 分 带宽 被 无 休止 的 重 传 消耗 。 

虽然 存在 许多 重 传 协议 , 但 是 最 主要 的 两 类 肯定 与 否定 确认 机 制 分 别 为 ACK 与 NACK。 

在 如 图 10-8 所 示 的 ACK 协议 中 ， 发 送 端 需要 持续 记录 正确 发 送 的 内 容 。 通 过 在 发 送 前 加 
入 CRC 或 其 他 错误 校 验 位 ， 协 议 要 求 接收 端 在 收 到 正确 数据 包 时 回 传 一 个 确认 标志 。 对 已 发 
送 的 数据 有 记录 的 发 送 端 可 以 将 其 与 接收 端 收 到 的 数据 进行 比较 。 一 段 时 间 后 (考虑 到 已 发 送 
的 数据 包 延 迟 ) ， 接 收 端 未 收 到 的 数据 包 会 被 重 传 。 


a) 待 发 送 数据 包 [ 7,6,5.4,3,2,1 | 
"mxcec 畏 团 团团 团团 团 ~ 一 团团 团团 洗 团 加 


c ) 接收 端 错误 校 验 ， 如 果 正 确 则 存 入 缓冲 区 


d ) 确认 正确 接收 数据 包 -~ 0 









e ) 重 传 数据 包 ( 如 果 NACK 正 确 发 送 ) BB 六 一 玫 


f) 如 果 接 收 无 误 ， 则 存 入 缓冲 区 


图 10-8 一 个 确认 协议 示范 ， 其 中 发 送 端 在 数据 包 被 正确 接收 后 会 收 到 通知 ， 而 在 数据 包 损 坏 或 
未 能 接收 的 情况 下 需要 重 传 。 另 外 一 种 否定 应 答 机 制 会 在 图 10-9 中 示范 


如 图 10-9 所 示 的 NACK 协议 ， 对 接收 端的 要 求 更 严格 。 接 收 端 需要 记录 正确 接收 的 数 
据 包 ， 并 最 终 通过 发 送 NACK 符号 提醒 发 送 端 数据 包 未 收 到 ， 随 后 发 送 端 重 传 请 求 的 数 
据 包 。 


"#AE 国 团团 团团 团团 ~ 一 一 团团 团团 几 团 上 
c ) 接收 端 错误 校 验 ， 如 果 正 确 则 存 入 缓冲 区 
d ) 请 求 重 传 出 错 的 数据 包 【NACK3 由 人 -一作 [ NACK3 | 


a ) 待 发 送 数据 包 







e ) 重 传 数据 包 ( 如 果 NACK 正 确 发 送 ) 办 入 一 一 


f) 如 果 接 收 无 误 ， 则 存 入 缓冲 区 


图 10-9 香 定 应 答 机 制 中 ， 数 据 接收 错误 或 未 能 接收 时 ， 发 送 端 会 收 到 通知 。 发 送 端 
必须 重 传 要 求 的 数据 包 。 另 外 一 种 主动 确认 接收 机 制 在 图 10-8 中 示范 
两 种 方法 都 要 求 加 入 错误 校 验 码 ， 并 且 都 需要 一 些 识别 数据 包 的 方法 。 实 际 上 大 多 数 通信 
系统 都 使 用 序列 号 。 将 数据 包 顺 序 标号 为 0，1，2,，3, 4 等 。 这 种 方法 适用 于 NACK 机 制 ， 否 
则 接收 端 会 不 知道 是 否 有 数据 包 丢 失 (或 者 用 于 ACK 协议 来 识别 正确 接收 的 数据 包 ) ， 也 适用 
于 处 理 接收 顺序 有 错 的 数据 包 。 实 际 网 络 系统 〈 如 因特网 ) 中 经 常 存在 数据 包 接收 顺序 错乱 
的 情况 (第 11 章 会 详细 讨论 ) 。 
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ACK 和 NACK 机 制 的 部 分 特性 如 下 表 所 示 : 























特性 ACK NACK 
已 发 送 数 据 | 用 户 数 据 包 、 序 列 号 与 错误 校 验 码 用 户 数据 包 、 序 列 号 与 错误 校 验 码 
纠 错 码 在 发 送 端 加 入 ， 接 收 端 读 取 在 发 送 端 加 入 ， 接 收 端 读 取 
数据 包 错 误 或 丢失 接收 端 不 做 出 反应 接收 端 发 送 NACK 
数据 包 接收 正确 接收 端 发 送 ACK 接收 端 不 做 出 反应 
重 传 发 送 端 发 现 数据 包 未 接收 接收 端 发 出 请 求 


接 下 来 重点 分 析 ACK 与 NACK 机 制 ， 两 者 都 需要 错误 检测 以 及 确定 数据 包 的 序列 号 ， 还 
需要 一 个 记录 正确 接收 数据 包 的 列表 。 对 于 ACK 来 说 ， 列 表 在 发 送 端 ， 而 NACK 的 列表 在 接 
收 端 。 在 大 多 数 网 络 系统 中 ， 接 收 端 和 发 送 端 都 有 数据 包 缓 冲 区 ， 在 发 送 端 存放 待 发 送 的 数据 
包 ， 直 到 发 送 端 收 到 ACK 或 未 收 到 NACK。 在 接收 端 按 序列 号 顺序 存放 数据 包 。 

假设 正确 接收 的 数据 包 比 损坏 的 多 ， 则 ACK 比 NACK 多 。 然 而 现实 系统 只 用 1 位 代表 一 
个 数据 包 〈 即 256 位 的 确认 数据 包 可 以 表示 256 个 已 接收 的 数据 包 ， 如 用 1 表示 成 功 接收 ，0 
表示 未 接收 )。 这 样 的 方法 中 单独 的 ACK 或 NACK 就 不 是 用 来 表示 每 个 数据 包 的 接收 状态 了 ， 
而 是 包含 过 去 发 送 的 许多 数据 包 接 收 信息 ， 这 样 可 以 大 幅 提升 效率 。 

最 后 还 要 注意 一 点 ， 每 种 机 制 都 存在 以 下 可 能 现象 : 反 向 信道 (从 接收 端 回 传 发 送 端的 信 
息 ) 和 前 向 信道 一 样 可 能 出 错 。 因 此 ， 无 论 是 ACK 还 是 NACK 机 制 ， 都 需要 处 理 ACK 或 NACK 
信息 丢失 或 损坏 的 问题 。 

现实 系统 会 发 送 很 多 ACK 或 NACK 回复 ， 并 且 具 有 超时 限制 ， 即 在 一 段 时 间 后 系统 重 试 ， 
以 及 多 次 重 试 后 〈 非 无 休止 ) 最 终 放弃 无 效 数据 包 。 很 多 人 都 有 如 下 经 历 ， 当 从 网 站 中 加 载 
不 能 正确 打开 的 网 页 (已 经 出 错 ) 时 ,浏览 器 会 持续 加 载 网 页 ， 并 最 终 放弃 ， 在 屏幕 显示 错 
误 信息 。 重 试 加 载 网 页 的 时 间 取 决 于 网 络 系统 内 部 的 超时 设置 。 


10.2.6 连接 管理 


NACK 与 ACK 机 制 都 建立 在 全 局 控制 的 基础 上 。 控 制 系统 使 用 如 ACK、NACK、 序 列 号 等 
的 信息 来 决定 发 送 的 数据 包 和 时 间 ， 但 在 许多 网 络 系统 中 ， 控 制 系统 需要 更 多 功能 。 

10. 2. 6. 1 仲裁 

仲裁 指 在 多 个 选择 中 确定 更 高 优先 级 ， 在 网 络 中 常用 于 有 多 个 设备 的 链 路 情景 ， 如 10. 1. 1 
节 中 的 一 对 一 单 工 链 路 。 链 路 可 能 是 有 线 的 ， 也 可 能 是 无 线 的 ， 然 而 大 多 数 情况 下 ， 链 路 一 次 
只 能 被 一 个 设备 使 用 ， 但 当 有 多 个 设备 可 供 传输 时 ， 就 需要 仲裁 。 仲 裁决 定 发 送 设备 使 用 链 路 
的 特定 时 间 。 仲 裁 和 资源 控制 是 一 个 非常 复杂 的 话题 ， 后 文中 会 深入 讨论 。 但 是 一 定 要 注意 ， 
在 单 工 链 路 的 情况 下 ， 仲 裁 通常 指 “ 待 发 送 的 设备 ”， 而 当 错误 发 生 时 ， 仲 裁 控制 数据 包 重 传 
的 方式 。 在 之 前 提 到 的 NACK 和 ACK 例子 中 ,由 接收 端 和 发 送 端 分 别 仲裁 。 在 有 多 个 接收 端 
和 发 送 端的 复杂 情景 中 ， 可 能 由 一 个 中 心机 关 或 分 布 式 决策 制定 进程 做 出 决定 。 后 者 在 许多 现 
实 网 络 系统 (如 以 太 网 、WiFi 等 ) 中 更 为 常见 ， 并 且 在 出 错时 速度 更 快 ， 鲁 棒 性 更 高 ， 尽 管 
此 方法 要 求 系统 协作 性 。 

城市 交通 是 一 个 形象 的 模拟 场景 。 大 多 数 司 机 可 以 控制 开车 时 间 、 车 速 〈 受 限 ) 以 及 行 
车 路 线 。 本 书 中 的 交通 系统 在 交通 灯 和 速度 限制 方面 进行 控制 。 在 其 他 情况 下 要 求 驾 驶 员 在 路 
上 自主 协调 。 驾 驶 员 的 另 一 个 可 选 方案 是 在 出 行 前 将 行车 计划 发 送 给 城市 流量 控制 中 心 ， 决 策 
者 为 其 规划 路 线 ， 制 定 速度 、 开 始 时 间 和 驾驶 规范 。 

如 果 所 有 人 遵从 城市 流量 控制 中 心 制订 的 交通 计划 ， 行 程 错误 会 控制 到 最 少 ， 同 时 效率 最 
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高 。 然 而 系统 可 调整 性 极 差 ， 如 启动 延迟 、 不 可 预计 事件 会 造成 大 规模 混乱 。 驾 驶 员 还 需要 一 
个 方法 来 提交 交通 计划 ， 或 接收 〈 遵 从 ) 出 行 方向 ， 这 些 问 题 在 行程 中 都 需要 更 新 。 由 于 控 
制 开销 过 大 ， 整 个 方法 都 有 些 不 切实 际 。 大 多 数 网 络 中 都 存在 这 个 问题 。 实 际 上 为 协作 规定 一 
些 鲁 棒 的 规则 相 较 详细 但 不 可 调整 的 规则 会 更 加 实用 。 

10. 2. 6.2 控制 包 

了 解 了 网 络 需 要 一 些 控制 规则 后 ， 读 者 还 需要 学 习 实 行 办 法 。 假 设 一 个 环境 中 有 发 送 端 和 
接收 端 ， 并 且 已 经 存在 两 个 方向 同时 发 送 数据 包 的 通信 机 制 。 最 常见 的 控制 类 通信 是 在 系统 中 
将 部 分 包 做 成 “控制 ” 包 ， 部 分 包 做 成 “数据 ” 包 。 控 制 包 指 示 系 统 工 作 方 法 ， 数 据 包 通 过 
链 路 传输 用 户 数据 。 分 组 化 数据 的 链 路 总 会 产生 不 同类 型 的 数据 包 ， 有 些 数据 包 只 用 于 控制 
链 路 。 

控制 包 可 能 会 传达 ACK 与 NACK 以 及 网 络 带宽 和 拥塞 的 信息 。 如 果 收 发 端 存 在 多 条 可 选 
路 径 (多 跳 )， 这 些 信息 可 以 告诉 网 络 中 的 计算 机 (节点 ) 如 何 路 由 。 

在 现代 网 络 中 ， 控 制 包 提供 高 效 控制 功能 ， 还 能 提供 监测 功能 ， 包 括 检查 错误 、 拥 塞 并 且 
分 析 网 络 结构 ， 例 如 定位 某 个 用 户 。 

在 以 太 网 和 WiFi 中 ， 这 类 控制 协议 自动 连续 运行 。 大 多 数 用 户 都 意识 不 到 它 的 存在 。 

10. 2. 6.3 寻 址 

本 市 最 后 一 部 分 内 容 是 寻 址 。 到 目前 为 止 ， 本 书 已 经 介绍 过 一 对 一 链 路 ， 然 而 还 有 许多 备 
选 拓扑 用 于 连接 多 个 计算 机 。 例 如 图 10-5 中 的 环 状 拓扑 网 络 ， 将 数据 包 从 计算 机 1 发 送 到 计 
算 机 3 需要 经 过 计算 机 2。 计 算 机 2 要 确定 数据 包 是 否 需 要 转发 。 

解决 方法 就 是 让 每 个 计算 机 在 网 络 中 都 有 一 个 独立 地 址 。 当 目的 地 为 某 计 算 机 的 信息 时 ， 
会 向 该 计算 机 寻 址 。 当 计算 机 收 到 数据 包 时 ， 会 先 检 查 目的 地 址 ， 再 决定 向 其 他 节点 转发 数据 
包 或 忽略 。 

第 11 章 中 讨论 实际 有 线 和 无 线 网 络 时 ， 会 深入 研究 硬件 和 IP 地 址 。 硬 件 地 址 对 于 特定 网 
络 上 的 每 个 计算 机 接口 都 是 唯一 的 ， 它 是 根据 以 太 网 数据 包 设计 的 。 每 个 数据 包 编 址 到 一 个 特 
定 接口 或 一 大 片 地 址 〈 广 播 数 据 包 有 所 有 地 址 ) 。 


10.3 可 扩展 性 、 效 率 与 重复 利用 
本 章 开 始 先 介绍 计算 机 之 间 发 送 数据 的 需要 ， 随 后 不 断 增加 需求 来 让 通信 变 得 灵活 通用 。 
虽然 现在 仍然 存在 将 一 串 二 进 制 数 通 过 固定 电线 发 送 给 计算 机 的 通信 系统 ， 但 大 多 数 通信 
系统 使 用 编码 和 分 组 化 通信 ， 并 且 因 特 网 协议 已 经 占据 了 中 心地 位 。 
正如 之 前 介绍 的 ， 分 组 化 灵活 、 方 便 且 容 错 率 高 。 然 而 分 组 化 有 一 定 开 销 ， 甚 至 包括 加 入 
数据 包 用 于 错误 控制 的 多 余 信息 (bit) ， 数 据 包 的 控制 指示 信息 ， 以 及 数据 包 目 标的 地 址 。 可 
以 附加 到 数据 包 中 的 信息 有 很 多 ， 包 括 以 下 常用 信息 : 
。 指定 接收 端的 地 址 。 
发 送 端 地 址 。 
数据 包 类 型 。 
数据 包 的 用 户 数据 (有 时 称 为 载荷 ) 。 
用 于 控制 包 的 控制 信息 。 
序列 号 。 
。 纠 错 (或 校 验 ) 位 。 
其 他 的 常见 信息 包括 时 间 惟 (生存 时 间 )、 路 由 和 网 络 状况 的 详细 信息 、 数 据 长 度 区 域 ， 
理想 情况 下 还 包括 防止 自 改 的 安全 信息 。 
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这 些 信息 对 通用 灵活 的 系统 拓扑 和 方法 都 至 关 重要 ， 同 时 还 增加 了 开销 。 每 KB 待 发 送 的 
用 户 信 息 都 要 额外 加 入 几 字 节 (可 能 更 多 ) ， 这 就 减少 了 链 路 的 可 用 带宽 。 当 为 固定 高 性 能 链 
路 (如 连接 两 个 超级 计算 机 的 有 线 链 路 ) 设计 特定 网 络 方案 时 ， 需 要 削减 信息 以 提高 效率 ， 
并 且 会 降低 灵活 性 。 其 他 设备 无 法 连接 到 “网 络 ”， 但 是 会 提升 速度 。 453 


10.4 OSI 分 层 


国际 标准 化 组 织 在 20 世纪 70 年 代 末 批准 了 开放 系统 互 ”应 用 层 顶层 
联 模型 (也 叫 参 照 系统 ) ， 用 以 统一 分 类 并 管理 网 络 连接 。 要 
这 个 模型 一 共有 七 层 ， 如 图 10-10 所 示 。 从 最 底层 开始 ， 
模型 包括 从 位 级 的 信 令 到 使 用 信 令 的 应 用 的 所 有 事物 (例如 
从 以 太 网 电缆 电压 转换 到 因特网 银行 系统 的 跨度 ) 。 要 记 住 每 
层 的 名 字 有 些 困 难 ， 所 以 大 多 数 人 用 一 句 话 辅助 记忆 ; 数据 
“Please Do Not Throw Sausage Pizza Away” ( 即 不 要 扔 掉 香 肠 比 物 底层 
了 萨 ， 包 含 从 底层 开始 的 名 称 首 字 母 ) 。 和 i 
模型 的 核心 是 每 层 只 与 栈 中 上 一 层 和 下 一 层 进行 通信 ， 国 1 克 区 全 机 区 玫 尖 人 
并 且 这 个 规则 被 严格 执行 。 因 此 某 一 层 的 开发 者 只 需要 了 解 
邻居 层 的 通信 。 这 样 划 分 考虑 到 通信 中 的 更 多 规律 ， 以 及 理论 上 更 高 的 可 靠 性 。 
接 下 来 从 最 底层 开始 依次 进行 介绍 。 
。 物理 层 一 一 控制 通信 媒介 的 单元 电路 连接 性 以 传输 数字 信号 。 例 如 ， 数 据 总 线 中 的 电 
线 、 时 序 以 及 电压 ， 或 者 无 线 连接 中 的 信号 频率 与 相位 。 物 理 层 负责 保证 单元 可 以 与 
传输 介质 “交流 ”， 同 时 负责 建立 与 媒介 的 连接 ， 以 参与 共享 媒介 的 计划 (适时 ) 以 
及 转化 逻辑 数位 与 特定 硬件 的 物理 符号 。 
。 数据 链 路 层 一 一 位 被 封装 成 用 于 传输 的 块 并 形成 了 流 (包括 向 正确 的 目的 地 进行 传 
输 ) ， 数 据 链 路 层 (DLL) 在 由 物理 层 控 制 的 物理 通信 上 建立 了 一 个 (多) 点 到 (多) 
点 的 结构 。 在 许多 系统 中 要 求 数据 链 路 层 控制 物理 层 的 错误 以 确保 和 网 络 层 交互 的 框 
架 接 口 无 误 。 
e 网 络 层 一 一 数据 块 通过 网 络 层 路 由 。 网 络 层 由 个 体 数 据 链 路 组 成 ， 并 可 能 混合 多 种 物 
理 媒 介 。 其 核心 思想 是 实现 从 发 送 端 到 接收 端的 端 到 端 通信 ， 依 靠 底层 来 控制 任何 类 [454 
型 的 信号 。 网 络 层 不 考虑 通信 的 跳 数 ， 也 不 考虑 用 于 通信 的 科技 类 型 。 
。 传输 层 一 一 确保 所 有 的 数据 在 用 于 正确 应 用 前 按 正确 顺序 到 达 接 收 端 。 
。 会 话 层 、 表 示 层 、 应 用 层 一 一 这 三 个 软件 层 作 用 于 应 用 程序 网 络 通信 的 不 同方 面 。 
这 7 层 是 理论 工作 者 提出 网 络 工作 的 基础 ， 然 而 现实 中 我 们 依赖 的 网 络 是 由 计算 机 工程 师 
设计 的 。 工 程 师 求 真 务实 ， 因 此 创造 了 一 个 很 实用 的 系统 ， 但 是 这 个 系统 只 要 求 有 5 层 。0SI 
发 明 者 可 能 不 会 赞同 这 一 方案 。11. 2 节 会 介绍 5 层 的 TCP/IP 模型 。 


10.5 拓扑 与 架构 


本 书 的 前 几 音 探索 了 计算 机 的 内 部 架构 ， 例 如 ， 第 4 章 概述 了 功能 单元 如 何 通过 不 同类 型 
的 总 线 架构 连接 。 读 者 可 以 发 现 指令 如 何 将 数据 项 目 从 内 存 移动 到 功能 单元 来 处 理 ， 随 后 到 第 
二 功能 单元 ， 最 终 将 结果 移 回 内 存 。 

通过 这 个 视角 ， 现 在 想象 功能 单元 移动 到 计算 机 外 成 为 外 设 。 概 念 基 本 是 类 似 的 ， 除 了 向 
外 设 传输 数据 的 速度 比 在 内 部 功能 单元 传输 慢 〈 内 部 总 线 总 是 比 外 设 总 线 运行 速度 快 ， 因 为 越 
短 越 快 ， 至 少 在 计算 机 中 是 这 样 ) 。 
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现在 想象 将 包含 功能 单元 的 外 设 移动 到 更 远 ， 主 机 和 长 距离 的 功能 单元 之 间 的 接口 需要 延 
伸 和 变化 ， 但 是 向 单元 发 送 数据 和 接收 转变 后 的 数据 过 程 保 持 不 变 。 

在 某 些 程度 上 可 以 将 网 络 在 功能 和 服务 层面 视 为 一 组 向 其 他 单元 发 送 待 转变 信息 的 单元 ， 
这 些 转 变 后 的 信息 会 发 送 到 别处 。 


10. 5. 1 分 层 网 络 


现实 世界 中 的 大 多 数 网 络 都 有 分 层 拓扑 ， 如 图 10-11 所 示 。 包 括 大 多 数 的 公司 内 网 〈 仅 在 
组 织 内 部 存在 的 封闭 网 络 ) ， 顶 层 的 计算 机 通常 是 公司 与 外 部 因特网 联通 的 网 关 。 网 络 中 的 计 
算 机 一 般 都 是 连接 在 一 起 的 ， 同 时 部 分 服务 器 连接 到 两 三 个 不 同 计算 机 上 (在 大 学 或 学 校 中 ， 
这 种 链 路 可 以 连接 数 百 个 有 线 或 无 线 设 备 ) 。 

上 层 的 计算 机 通常 为 因特网 、 邮 件 、 打 印 机 以 及 其 他 应 用 的 服务 器 ， 底 层 计算 机 则 一 般 为 
用 户主 机 。 可 以 看 出 大 部 分 通信 都 发 生 在 上 层 和 底层 之 间 (一 个 相对 高 效 的 链 路 ) 而 非 两 个 
底层 计算 机 之 间 (效率 较 低 ， 跳 数 可 能 是 上 层 与 底层 通信 的 两 倍 ) 。 





图 10-11 分 层 网 络 的 示范 ， 展 示 了 计算 机 的 不 同 分 层 


10. 5.2 主 从 架构 


主 从 架构 是 一 种 排 布 方式 ， 其 中 某 些 计算 机 被 指定 为 服务 器 ， 用 于 提供 功能 ， 并 连接 到 一 
个 更 大 的 网 络 ， 如 因特网 〈 或 局 域 网 ) 。 此 架构 利用 了 网 络 的 功能 来 支持 计算 机 间 的 数据 连 
接 。 当 网 络 中 的 某 个 点 需要 特定 服务 ， 例 如 打印 一 个 文档 时 ， 该 计算 机 连接 到 打印 服务 器 并 将 
打印 工作 交 给 服务 器 。 其 他 的 计算 机 可 以 同时 连接 并 上 传 打 印 任务 。 单 个 的 打印 任务 随后 会 被 
服务 器 按 顺序 执行 。 图 10-12 中 的 例子 为 4 个 客户 端 可 以 用 因特网 (或 局 域 网 ) 接 入 不 同 服务 
器 ， 以 实现 特定 任务 。 





客户 端 1 客户 端 2 客户 端 3 客户 端 4 





打印 机 音频 存储 图 片 存储 I 页 1 与 数据 
图 10-12 主 从 架构 的 示例 


10. 5.3 对 等 架构 


对 等 架构 确切 来 说 不 算 一 种 拓扑 ， 只 要 两 个 或 两 个 以 上 的 计算 机 能 够 无 差别 共享 任务 和 信 
息 的 网 络 ， 就 称 为 对 等 系统 。 与 主 从 架构 不 同 的 是 ， 对 等 架构 中 不 会 有 某 个 计算 机 被 指定 为 其 
他 计算 机 的 服务 器 。 

对 等 系统 比 其 他 系统 效率 更 高 ， 因 为 其 不 涉及 第 三 方 计算 机 。 对 于 大 量 用 户 来 说 ， 服 务 器 
可 能 会 成 为 瓶颈 〈 或 拒绝 服务 攻击 软件 目标 ) ， 然 而 对 等 链 路 除了 会 用 到 网 络 基 本 功能 外 ， 不 
需要 共享 其 他 资源 。 


10. 5.4 点 对 点 连接 


本 书目 前 介绍 过 的 网 络 ， 大 多 数 都 是 被 精心 规划 设计 的 。 这 是 网 络 架构 师 或 系统 规划 师 的 
目标 一 一 有 一 个 良好 、 整 齐 的 图 形 来 代表 他 们 设计 的 网 络 。 然 而 实际 情况 大 多 是 这 些 图 形 是 杂 
乱 无 章 的 。 完 全 计划 网 络 的 另 一 个 极端 是 完全 点 对 点 网 络 。 其 中 任意 设备 可 以 在 任何 时 间 、 任 
何 位 置 连接 到 网 络 。 我 们 使 用 的 基于 TCP/IP 的 以 太 网 的 一 大 好 处 就 是 其 良好 的 兼容 计划 连接 
和 点 对 点 连接 。 

无 线 自 组 网 的 一 大 特色 是 可 以 通过 无 线 网 络 形成 连接 到 附近 其 他 节点 的 分 散 设备 〈 节 点 ) 
组 。 在 这 样 的 系统 中 ， 从 一 个 节点 到 另 一 个 远 距 离 节 点 的 信息 可 能 会 遍历 无 限 数量 的 路 径 。 很 
多 网 络 管理 算法 用 于 根据 系统 目标 (例如 最 快 消息 投递 、 最 短 物理 距离 、 最 低 功 耗 路 径 等 ) 
合理 引导 信息 ， 研 究 人 员 已 经 为 点 对 点 网 络 设计 出 许多 路 由 算法 ， 这 些 算法 有 不 同 特性 ， 并 且 
是 当今 一 个 热门 研究 领域 。 


10. 5.5 移动 性 与 切换 
本 节 是 关于 移动 网 络 的 简短 讨论 。 对 于 大 多 数 读 者 来 说 ,移动 网 络 意味 着 在 路 上 或 车 上 
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(驾驶 员 不 要 打 电 话 ) 使 用 手提 设备 时 可 以 连接 因特网 。 移动 网 络 是 基于 蜂窝 的 ， 每 个 小 区 内 
在 手机 信号 塔 附 近 有 一 个 接近 六 边 形 的 覆盖 区 域 。 这 样 的 六 边 形 在 发 达 城 市 密集 排 布 ， 因 此 只 
是 步行 几 分 钟 就 可 能 穿 过 了 很 多 相 邻 小 区 。 

当 进行 通话 或 数据 连接 时 ， 通 信和 是 由 最 近 的 手机 信和 号 塔 〈 严 格 定义 上 是 信号 最 强 的 ， 一 般 
是 物理 距离 最 近 ) 实现 的 。 从 该 小 区 移动 到 另 一 个 小 区 触发 的 进程 称 为 切换 ， 即 第 一 个 手机 信 
号 塔 将 通信 工作 转交 给 第 二 个 信号 塔 。 现 代 移动 语音 和 数据 通信 系统 都 是 基于 包 的 ， 因 此 切换 
发 生 在 两 个 邻接 传输 的 包 之 间 。 根 据 实际 应 用 的 技术 ,切换 可 能 包括 频率 切换 或 时 际 切 换 。 在 
某 些 系统 中 ， 旧 链 路 损坏 前 会 生成 新 链 路 ( 所 谓 的 软 切换 )， 然 而 在 硬 切换 系统 中 ， 旧 链 路 终 
结 与 新 链 路 生成 是 同步 进行 的 。 

就 本 书 已 经 介绍 的 网 络 系统 而 言 ， 如 果 数 据 包 有 源 地 址 和 目的 地 址 ， 只 要 有 线 网 络 和 手机 
信号 塔 保持 连接 ， 每 个 手机 信号 塔 收 到 的 数据 包 都 会 抵达 目的 地 址 (路由)。 序 列 号 也 可 以 保 
证 在 目的 节点 收 到 多 个 重复 版 本 的 数据 包 时 ， 可 以 忽略 复制 版 本 。 


10.6 小 结 


本 章 介 绍 了 远 距 离 的 计算 机 之 间 连 接 的 概念 和 要 求 。 在 此 基础 上 ， 探 讨 了 连接 多 个 计算 机 
的 方法 ， 包 括 拓扑 的 定义 ， 随 后 讨论 了 数据 包 形 式 传输 的 概念 。 

在 数据 分 组 化 后 ， 通 信 增 添 了 许多 趣味 。 因 为 数据 包 具 有 自己 的 生命 周期 ， 包 括 寻 址 、 路 
由 、 错 误 检测 、 纠 错 、 重 传 、 确 认 ， 其 至 具有 生存 时 间 。 肯 定 与 否定 确认 机 制 是 两 种 不 同 的 错 
误 控制 方法 ,结合 运用 这 两 种 方法 可 以 有 效 完成 链 路 控制 和 管理 。 | 

作为 建立 通信 规则 的 尝试 ，0SI 模 型 (由 ISO 首次 开发 ) 将 计算 机 间 的 通信 进程 分 为 7 个 
连通 的 子 层 。 然 而 在 实际 系统 中 5 层 就 可 以 完成 所 有 需求 。 在 第 11 章 中 ,将 会 深入 探索 网 络 
的 5 层 模 型 ， 包括 卫 、TCPXP、WiFi 以 及 宏大 的 万 维 网 。 


思考 题 


10.1 鉴别 下 列 通 信 类 型 是 单 工 ， 半 双 工 ， 还 是 全 双 工 。 
。 和 朋友 一 对 一 聊天 。 
。 与 其 他 国家 的 笔友 书信 来 往 。 
。 观看 电视 直播 节目 。 

10.2 假设 美国 和 英国 有 几 亿 可 联网 的 计算 机 ， 其 中 大 部 分 计算 机 每 天 都 要 工作 很 长 时 间 。 试 解释 为 什 
么 横 跨 大 西洋 的 通信 无 法 以 电路 交换 为 基础 。 

10.3 ”两 个 计算 机 间 数 据 包 的 大 小 可 以 根据 通信 情况 调整 。 说 明 数 据 包 大 小 在 链 路 误 码 率 升 高 时 减 小 的 原因 。 

10.4 在 一 个 包 交 换 的 网 络 中 ， 几 个 计算 机 共享 一 个 长 距离 链 路 (如 图 10-4 所 示 )， 列 举 每 个 数据 包 包 
含 的 4 类 信息 (除了 需要 传输 的 用 户 数据 )。 

10.5 详细 说 明基 于 包 的 网 络 通信 中 错误 检测 和 纠 错 的 区 别 。 

10.6 既然 ECC 如 此 有 效 ， 为 什么 不 在 网 络 中 传输 的 所 有 数据 包 加 入 ECC 数据 呢 ? 请 给 出 两 个 理由 。 

10.7 列举 占线 的 网 络 中 控制 包 可 能 包含 的 三 类 信息 。 

10.8 在 0SI 模型 中 ， 网 络 设备 中 连接 电子 线路 的 是 哪个 层 ? 

10.9 在 一 个 典型 的 家 用 的 通过 电缆 调制 解 调 器 访问 的 因特网 连接 中 ， 写 出 本 地 网 络 层级 的 最 高 层 的 设 
备 名 称 。 

10.10 在 办 公 室 网 络 中 ,一 个 计算 机 永久 性 连接 到 办 公 室 打印 机 ， 主 从 式 架 构 和 点 对 点 架构 哪个 更 适合 
用 来 管理 打印 机 ? 

10. 11 假设 你 的 朋友 每 天 在 从 家 到 工作 单位 往返 的 路 上 (距离 大 概 几 英 里 ?) 用 智能 手机 看 YouTube 视 








日 1 英里 =1.61 千 米 。 一 一 编辑 注 
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10. 12 


10. 13 


10. 14 


10. 15 





频 。 虽 然 他 将 手机 设置 为 保持 因特网 连接 ， 但 在 路 程 中 的 某 个 点 视频 总 是 会 中 断 。 他 发 现在 往返 
的 两 个 方向 上 ， 该 位 置 都 存在 此 问题 。 分 析 他 的 网 络 连接 中 导致 中 断 的 原因 。 

假设 具有 详细 地 址 的 数据 包 ， 这 个 数据 包 被 网 络 节点 引导 到 正确 的 网 络 路 径 ， 最 终 到 达 预 期 的 目 
的 节点 ， 此 过 程 名 称 是 什么 ? 

为 什么 个 在 许多 基于 数据 包 的 传输 系统 中 每 个 已 发 送 的 数据 包头 部 信息 包含 序列 号 ? 给 出 两 个 
原因 。 

在 一 个 数据 包 传输 系统 中 ， 可 靠 性 是 关键 ， 确 保 数 据 包 到 达 目 的 节点 比 效率 和 传输 速度 更 重要 ， 
是 状 拓扑 和 环 状 拓扑 哪个 更 适用 于 此 系统 ? 

在 400Mbits 的 WiFi 链 路 〈 接 入 点 距离 100m) 中 下 载 文件 为 什么 比 在 22Mbit/s 的 WiFi 链 路 〈 接 
入 点 在 室内 ) 中 下 载 耗 时 更 久 ? 两 个 WiFi 设备 都 与 同一 个 骨干 网 连接 ， 两 个 系统 中 都 没有 其 他 
用 户 在 同时 使 用 链 路 。 
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计算 机 间 的 连接 最 初 是 两 台 设备 相连 ， 而 后 演变 成 了 多 个 。 这 种 将 计算 机 连接 在 一 起 的 想 
法 在 第 10 章 中 已 经 研究 过 了 ， 接 下 来 会 讨论 由 连接 所 引发 的 问题 与 机 遇 。 其 中 有 两 个 主要 思 
想 : 打包 数据 以 便 在 信道 中 传输 ; 使 用 分 层 模型 进行 网 络 通信 。 之 前 已 经 介绍 了 著名 的 七 层 
0SI 模 型 (物理 层 、 数 据 链 路 层 、 网 络 层 、 传 输 层 、 会 话 层 、 表 示 层 )， 而 这 里 提 到 的 因特网 
模型 实际 上 只 用 了 五 层 。 

在 建立 更 深 的 理解 之 前 ， 本 章 将 集中 讨论 因特网 协议 〈 卫 ) 以 及 封装 的 概念 。 事 实 上 ， 这 
一 章 将 建立 一 个 相当 长 的 路 : 从 数据 包 开始 ， 随 后 将 讨论 传输 机 制 、 会 话 概念 、 寻 址 方式 、 各 
种 网 络 协议 、 应 用 协议 ， 以 及 域 、 万 维 网 和 电子 邮件 的 相关 知识 ， 并 简要 介绍 网 络 安全 的 重要 
问题 。 

计算 机 网 络 本 身 的 主题 是 非常 有 层次 的 ， 因 为 对 网 络 任何 方面 的 讨论 都 取决 于 较 低 层 和 较 
高 层 的 特征 。 这 意味 着 逐 层 理解 非常 重要 ， 对 一 个 层 的 误解 可 能 会 影响 理解 其 他 的 层 。 

在 本 书 中 〈 与 许多 其 他 讨论 网 络 一 样 ) , “更 高 ” 指 的 是 更 接近 应 用 程序 和 用 户 ， 而 “更 
低 ” 指 的 是 更 接近 实际 硬件 〈 电 压 、 信 和 号、 频率 等 ) 。 因 此 ， 从 低级 到 高 级 的 进展 ， 意 味 着 从 
物理 通信 机 制 转向 日 常生 活 中 的 应 用 。 


11. 1 因特网 

虽然 因特网 是 人 们 经 常 讨 论 的 话题 ， 但 花 一 点 时 间 来 定义 因特网 是 有 必要 的 。 实 际 上 ， 因 
特 网 是 一 个 特定 连接 协议 的 名 称 。 该 协议 能 使 信息 在 一 个 或 多 个 物理 链 路 上 传输 ， 进 而 实现 计 
算 机 间 的 通信 。 这 些 网 络 分 为 单 跳 和 多 跳 ， 但 通常 是 多 跳 网 络 ， 并 且 可 以 应 用 于 不 同类 型 的 物 
理 链 路 。 

因特网 允许 数据 和 资源 在 不 同 的 计算 机 间 共 享 ， 从 而 奠定 不 同 地 域 之 间 、 用 户 之 间 和 计算 
机 之 间 通 信 的 基础 。 人 们 每 天 使 用 的 许多 计算 机 应 用 程序 是 通过 因特网 来 进行 通信 的 : 访问 网 
站 的 浏览 器 ，Skype、WhatsApp 、Facebook 、SnapChat 、Instagram 、YouTube 等 应 用 ， 都 是 依靠 
因特网 来 进行 通信 服务 的 。 

因特网 有 如 下 四 个 优点 : 

1) 灵活 性 一 一 可 以 在 不 同类 型 的 链 路 上 运行 ,无论 这 个 链 路 是 快速 还 是 慢 速 ， 是 高 带宽 
还 是 低 带 宽 ， 是 否 容易 出 错 ， 以 及 这 链 路 是 否 拥 挤 或 是 否 有 变化 。 

2) 可 靠 性 一 一 即使 面 对 网 络 错误 和 快速 变化 ， 也 可 以 继续 可 靠 地 运行 。 

3) 宛 余 一 一 这 在 计算 中 通常 是 一 件 好 事 (虽然 在 实际 工作 中 并 非 如 此 )， 因 为 它 意 味 着 
有 不 同 的 方法 来 完成 任务 。 例 如 ， 有 两 条 、 三 条 或 一 百 条 路 径 可 以 使 计算 机 A 从 计算 机 B 中 获 
取 分 组 。 苑 余 是 使 因特网 在 面 对 单 节点 或 链 路 故障 时 依然 可 靠 的 原因 之 一 。 

4) 标准 性 一 一 这 意味 着 来 自 不 同 供应 商 的 不 同 硬 件 可 以 一 起 工作 以 形成 网 络 ， 允 许 使 用 
不 同类 型 的 物理 链 路 ， 并 传达 不 同类 型 的 数据 。 

所 有 这 些 特征 意味 着 智能 手机 通过 无 线 链 路 访问 世界 另 一 端的 服务 器 时 ， 不 需要 关心 所 使 
用 的 网 络 、 硬 件 类 型 、 连 接 质量 ， 或 者 确切 链 路 。 这 也 意味 着 当 计算 机 通过 物理 方式 加 入 某 个 
网 络 或 者 连接 到 WiFi 时 ，( 通 常 ) 就 可 以 正常 上 网 了 。 
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11. 1.1 因特网 的 历史 


今天 的 因特网 主要 归功 于 20 世纪 70 年 代 由 美国 国防 高 级 研究 计划 局 (DARPA， 但 现在 称 
为 ARPA) 资助 的 研究 。 该 研究 用 于 军事 ， 旨 在 创建 具有 卓越 可 靠 性 和 和 宛 余 的 网 络 一 一 即使 在 
多 个 系统 出 现 故 障 后 仍 可 继续 运行 。 该 网 络 称 为 ARPANET。 

事实 上 ， 同 时 发 展 的 还 有 其 他 的 网 络 ， 包 括 剑桥 环 (剑桥 大 学 网 络 ) ， 它 可 能 是 世界 上 第 
一 个 广域网 (WAN) ， 但 这 些 网 络 并 没有 标准 的 方式 来 让 不 同 的 计算 机 通过 不 同 的 物理 链 路 进 
行 通信 。 其 他 网 络 的 可 靠 性 和 灵活 性 也 远 低 于 因特网 ， 并 且 在 使 用 时 往往 需要 用 到 大 量 的 知识 
和 技能 。 

包括 因特网 在 内 的 第 一 批 网 络 与 基于 UNIX 的 操作 系统 密切 相关 ， 而 其 他 操作 系统 (如 
Microsoft Windows) 经 过 了 很 长 时 间 才 被 采用 。 即 使 在 今天 ， 对 于 网 络 的 使 用 基于 UNIX 的 计 
算 机 往往 也 比 基 于 Microsoft Windows 的 计算 机 更 有 效 ， 因 此 大 多 数 后 端 服务 器 、 网 络 运营 基础 
设施 、 网 站 服务 器 、 域 名 服务 器 等 几乎 都 是 基于 UNIX 的 。 全 球 网 络 专家 选择 类 UNIX 系统 主 
要 是 因为 其 可 靠 性 与 安全 性 ， 但 也 与 UNIX 根深 蒂 固 的 网 络 功能 有 关 。 


11. 1.2 因特网 治理 


在 早期 新生 的 DARPA 网 络 逐 渐 扩 展 到 各 个 大 学 ， 首 先是 在 美国 ， 然 后 是 全 球 ， 后 来 进 
一 步 扩展 到 商业 和 娱乐 行业 …… 自 DARPA 问世 以 来 ， 因 特 网 的 基本 设计 实际 上 变化 很 小 ， 这 
也 是 IP 地 址 耗 尽 的 一 个 原因 (至 少 对 于 IP4 来 说 是 这 样 的 ) 。 

今天 ， 因 特 网 的 发 展 由 一 个 名 为 互联 网 架构 委员 会 (IAB) “的 独立 机 构 进行 监督 ， 这 个 机 
构 负 责 监督 一 些 较 小 但 极为 重要 的 组 织 ， 其 中 包括 : 

。 互联 网 工程 专责 小 组 (IETF)“ 

。 互联 网 研究 工作 组 (IRTF) 有 

这 些 是 规划 因特网 演变 及 其 未 来 发 展 的 技术 组 织 ， 但 没有 一 个 机 构 或 国家 经 营 因特网 ， 所 
以 它 现在 由 委员 会 规划 也 就 不 难 理解 了 。 

尽管 由 委员 会 进行 规划 ， 但 构成 因特网 和 万 维 网 的 许多 标准 都 起 源 于 实验 室 而 非 董事 会 。 
从 这 个 开创 性 想法 的 产生 到 被 全 球 采用 ， 这 个 过 程 的 第 一 步 是 RFC 的 发 布 。 框 11. 1 中 将 解释 
更 多 内 容 。 

RFC 

今天 依赖 的 许多 所 谓 的 因特网 “标准 ”是 由 (相对 ) 普通 的 计算 机 工程 师 定义 的 。 他 们 记录 了 自己 
的 想法 、 实 验 或 发 现 ， 并 将 这 些 上 传 到 社区 进行 评论 、 研 讨 和 改进 。 

如 果 这 些 想 法 看 起 来 很 好 ， 人 们 和 便 开始 使 用 它们 ， 并 且 随 着 时 间 的 推移 ， 最 好 的 那些 成 为 实际 上 的 
标准 。 很 快 ， 这 些 发 布 的 想法 开始 被 称 为 RFC (Request For Comment) 。 为 方便 起 见 ， 每 个 RFC 都 由 一 个 
数字 标识 ， 目 前 有 超过 8000 个 ， 而 且 这 个 数字 一 直 在 增长 。 有 些 是 非常 技术 性 的 ， 有 些 是 实用 的 ， 有 些 
是 持续 对 话 的 记录 ， 而 有 些 是 相当 奇怪 的 。 

大 多 数 RFC 涵盖 单一 的 想法 或 协议 ， 这 些 都 是 公开 的 ， 任 何人 都 可 以 在 http:Vwww. rfc-editor org 上 
查看 (或 是 提出 自己 的 意见 ) 。 下 面 是 一 些 较为 著名 的 RFC: 

RFC 1 关于 “主机 软件 ”的 RFC 1 于 1969 年 4 月 发 布 。 

RFC 20 定义 了 用 于 信息 交换 的 美国 标准 代码 (ASCII) 。 

RFC 527 是 一 首 名 为 ARPAWOCKY 的 诗 。 





OO IAB: http:/www. iab. org。 
© IETF: http:/www. ietf. org。 
轩 TIRTF: http:/www. irtf org。 





RFC 822 是 第 一 个 定义 电子 邮件 消息 格式 的 文件 (后 被 RFC 5322 所 取代 ) 。 

RFC 958 讨论 了 调试 技术 以 及 新 网 络 投入 运行 时 出 现 的 问题 ， 但 是 它 被 写成 了 一 首 诗 。 

RFC 1149 描述 了 一 种 不 寻常 的 传输 数据 包 方式 ， 非 常 值得 一 看 。 

RFC 1939 描述 了 用 于 电子 邮件 检索 的 邮局 协议 版 本 3 (POP3)， 而 RFC 3501 描述 了 另外 一 种 方法 ， 
称 为 因特网 邮件 访问 协议 (IMAP) ， 这 两 者 都 是 今天 常用 的 邮件 协议 。 

RFC 2068 中 可 以 找到 超 文本 传输 协议 (HTTP) 。 

尽管 这 个 列表 看 起 来 像 一 个 历史 索引 ， 但 RFC 仍然 存在 并 且 表 现 得 很 好 。 它 们 仍 在 发 行 ， 也 在 被 积 
极地 使 用 。RFC 作为 一 种 好 的 ， 并 且 可 能 被 采用 的 方法 ， 是 无 与 伦比 的 。 








11.2 TCP/IP 和 |IP 层 模型 
因特网 层 模 型 如 图 11-1 所 示 ， 其 中 左边 ， 应 因 导 | 顶部 应 用 层 
是 较 大 的 0SI 模型 ， 这 在 10.4 节 中 介绍 过 。 玉 要 时 起 
与 0SI 模型 一 样 ，IP 模型 也 是 每 层 仅 与 上 面 a = 
和 下 面 的 层 相连 接 ， 并 且 负 责 特定 的 工作 。 JP 蝶 昌 赴 , 
模型 偶尔 被 描述 为 四 层 结 构 一 一 在 这 种 情况 和 直 
下 ， 物 理 层 和 数据 链 路 层 组 合 在 一 起 ， 形 成 。 数据 链 路 层 
一 个 网 络 接 口 层 。 但 是 这 里 所 使 用 的 是 五 层 底部 起, 
IP 结构 ， 下 面 将 探讨 每 个 层 的 角色 和 职责 : 
。 物理 层 一 最 低层 ， 这 一 层 确保 数据 图 11-1 0SI 七 层 模型 (左边 ) 与 


IP 五 层 模 : 3 k 
位 能 够 通过 媒介 在 节点 之 间 进 行 通 层 模型 (右边 ) 的 比较 


信 。 与 0SI 物理 层 一 样 ， 它 处 理 电 气 连接 、 信 号 传递 、 定 时 功能 、 媒 体 共享 ， 以 及 逻 
辑 位 和 符号 间 的 转换 等 问题 。 在 网 络 方面 ， 处 理 物 理 层 的 硬件 设备 通常 被 形象 地 称 
为 PHY。 

数据 链 路 层 一 一 该 层 将 位 收集 到 更 大 的 单元 (数据 包 ) ， 然 后 进行 传输 ， 并 隐藏 上 层 
不 同 物理 媒介 之 间 的 差异 ， 它 负责 MAC 层 以 及 逻辑 链 路 控制 (LLC) 。 通 常 MAC 接口 
连接 到 较 低 层 的 PHY， 而 LLC 接口 连接 到 较 高 层 。MAC 层 将 要 发 送 的 数据 转变 为 数据 
帧 ， 而 在 接收 时 验证 收 到 的 数据 帧 ， 并 且 当 多 个 单元 共享 传输 媒体 时 ， 还 提供 诸如 仲 
裁 和 流量 控制 的 服务 。 相 比 之 下 ，LLC 在 更 高 层 处 理 错误 和 控制 流量 。 在 一 些 计算 机 
中 ， 一 个 叫 作 MACPHY 的 硬件 设备 将 物理 层 与 MAC 子 层 整合 到 一 起 ， 让 LLC 在 软件 
中 执行 。 

网 络 层 一 一 该 层 使 用 IP 来 确保 数据 包 的 端 到 端 传输 (但 不 保证 它们 到 达 或 被 确认 )。 
传输 层 一 一 该 层 处 理 要 传输 到 另 一 台 设 备 〈 或 从 另 一 台 设 备 接收 ) 的 数据 包 ， 从 传输 
层 传输 的 数据 包 由 接收 设备 处 的 传输 层 重 新 组 装 。 根 据 发 送 的 信息 类 型 和 所 需 的 通信 
特性 ， 传 输 层 会 使 用 多 种 协议 进行 传输 〈 参 见 11.5 节 ) 。 

应 用 层 一 一 该 层 使 用 更 高 的 层 协议 ， 比 如 基于 网 络 文件 系统 ( NFS) 的 文件 分 享 协议 
或 者 NetBIOS 协议 ,文件 传输 协议 (FTP) ,简单 邮件 传输 协议 〈SMTP) ， 邮 局 协议 版 
本 3 (POP3) 等 。 





之 后 会 从 下 往 上 更 仔细 地 探究 其 中 的 一 些 层 。 在 这 个 过 程 中 ， 将 看 到 像 万 维 网 这 种 凭借 小 
而 可 靠 灵 活 的 链接 模块 搭建 的 通信 结构 是 如 何 遍 布 全 世界 的 (实际 上 归功 于 NASA， 其 使 用 已 
经 不 止 局 限 在 地 球 )。 但 首先 ， 需 要 解释 在 实际 网 络 中 使 用 的 一 种 更 重要 的 技术 一 一 封装 。 


封装 


广义 上 讲 ， 封 装 是 指 一 件 东西 被 男 一 件 东 西 包 于 。 它 是 编程 语言 中 的 一 个 重要 概念 ， 能 隐 
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藏 内 部 细节 ， 使 之 不 受 外 部 干扰 。 在 网 络 中 ,封装 的 作用 不 仅 是 隐藏 信息 ， 更 重要 的 是 将 网 络 
中 不 同 层 的 角色 和 职责 分 开 。 

图 11-2 显示 了 五 层 正 堆栈 和 每 层 的 名 称 ， 并 列举 了 各 层 之 间 传 递 数据 的 示例 。 当 从 上 到 
下 逐 层 传递 时 ， 数 据 块 被 依次 封装 在 一 系列 对 象 中 。 每 个 对 象 都 有 特定 的 任务 从 而 实现 相应 层 
的 功能 。 之 后 将 探究 这 个 堆栈 是 如 何 传输 数据 的 。 


将 要 被 传递 
的 数据 
ss 





图 11-2 封装 的 原则 是 要 让 数据 能 装 入 一 种 结构 中 ， 同 时 这 个 结构 本 身 又 能 被 后 续 的 
男 一 种 结构 封装 ， 而 “后 续 “ 的 结构 有 其 不 同 特征 和 责任 

1. 应 用 层 

从 顶部 开始 ， 想 象 将 数据 文件 从 一 台 计 算 机 上 的 应 用 程序 传输 到 男 一 台 计 算 机 上 的 应 用 程 
序 中 。 这 些 数据 需要 被 分 成 若干 块 或 数据 包 (通常 是 固定 大 小 的 分 组 ， 在 10.2.1 节 中 已 经 讨 
论 过 ) ， 每 个 块 或 数据 包 将 独立 传输 ， 然 后 在 所 接收 数据 的 尾部 重新 组 装 成 一 个 文件 。 每 个 数 
据 块 依次 从 应 用 层 传递 到 传输 层 。 

2. 传输 层 

从 传输 层 传递 过 来 的 数据 块 会 进入 一 个 包 中 (比如 TCP 或 者 UDP， 这 两 个 有 不 同 的 传输 
特性 ， 尤 其 在 处 理 错 误 方面 ， 这 个 接 下 来 会 在 11.5 节 进 行 解释 ) 。 在 形成 TCP 或 者 UDP 包 时 ， 
需要 将 必要 的 头 部 信息 插入 数据 块 的 起 始 位 置 。 一 旦 这 个 包 形 成 ， 整 个 包 就 会 被 传递 到 网 
络 层 。 

3. 网 络 层 

每 一 个 从 传输 层 送 来 的 包 会 被 捆绑 送 入 IP 报 文中 并 再 一 次 在 起 始 位 置 插入 头 部 信息 。 之 
后 会 仔细 研究 在 每 一 层 都 有 哪些 信息 加 入 ,但 是 现在 ， 这 个 数据 报 ( 即 一 个 全 头 捆绑 一 个 
TCP 包 , 或 者 一 个 全 头 捆绑 一 个 UDP 包 ) 将 传人 数据 链 路 层 ， 进 而 准备 在 物理 连接 上 的 传递 。 
网 络 层 并 不 “知道 ”将 会 用 什么 样 的 物理 连接 ， 它 只 “相信 ”网 络 层 会 把 全 数据 报 送 到 它 该 
去 的 位 置 。 

4. 数据 链 路 层 和 物理 层 

IP 数据 报 之 后 会 准备 通过 物理 网 络 的 传输 。 在 图 11-2 中 ， 网 络 类 型 是 以 太 网 ， 这 个 网 络 
类 型 被 广泛 运用 于 有 线 计算 机 网 络 中 。 以 太 网 传输 的 是 一 种 帧 格式 的 数据 ， 这 种 数据 格式 开始 
于 头 部 ,结束 于 尾部 。 数 据 链 路 层 创造 了 头 部 和 尾部 ， 并 且 分 别 将 它们 加 在 了 * 数据 报 的 起 
始 位 置 和 终止 位 置 ， 之 后 传递 给 物理 层 去 进行 实际 的 传输 。 在 图 11-2 的 底部 显示 了 将 要 通过 
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以 太 网 线路 传递 的 二 进 制 数据 。 

5. 封装 的 重要 性 

封装 在 确保 网 络 独立 性 方面 也 很 重要 。 这 意味 着 几乎 任何 类 型 的 底层 都 能 够 传输 从 更 高 层 
发 送 过 来 的 数据 包 和 数据 ， 前 提 是 对 数据 进行 了 合适 的 封装 并 以 预期 的 格式 传递 到 下 一 层 。 例 
如 ，TCP/IP 可 以 封装 在 卫 数据 报 中 ， 通 过 以 太 网 发 送 ， 也 可 以 通过 WiFi(IEEE 802. 11) 链 路 发 
送 。 后 者 的 封装 方式 类 似 于 以 太 网 〈 实 际 上 更 恰当 的 说 法 应 该 是 IEEE 802.3) ， 但 具有 不 同 的 硬 
件 ， 因 此 具有 不 同 的 物理 层 。 

除了 传输 TCPZIP 外 ， 以 太 网 帧 也 可 以 封装 很 多 不 同类 型 的 数据 ,包括 音频 (适用 于 通话 
或 者 语音 会 议 ) 、 视 频 甚至 适用 于 ATA (高 技术 配置 ) 硬盘 接口 的 数据 。 封 装 的 优点 表现 在 ， 
以 太 网 帧 既 不 会 因为 数据 的 不 同 而 变化 ， 也 不 会 因为 数据 链 路 层 的 处 理 方式 而 改变 。 当 数据 包 
通过 以 太 网 、WiFi、USB 或 其 他 类 型 的 链 路 传输 时 ， 它 也 不 会 发 生变 化 。 

这 样 做 的 结果 是 ， 一 个 在 人 P 堆 栈 中 正常 工作 的 层 ， 可 以 和 任何 底层 协议 一 起 使 用 ， 只 要 
底层 “遵从 ”对 数据 的 处 理 〈 即 它 应 该 做 什么 ) 。 

图 11-3 中 对 各 层 应 该 做 什么 做 了 最 好 的 总 结 。 它 显示 了 被 计算 机 分 成 块 的 数据 逐渐 封装 
到 以 太 网 帧 中 ， 最 后 被 送 到 了 物理 层 。 然 后 这 些 数据 会 被 发 送 到 另 一 台 计 算 机 的 物理 层 一 一 堆 
栈 层 底部 。 在 另 一 台 计 算 机 中 ， 数 据 由 下 向 上 通过 堆栈 层 ， 逐 层 拨 开 数据 包 、 帧 结构 和 数据 报 
信息 ， 最 后 将 原始 的 数据 块 送 到 另 一 台 计 算 机 的 应 用 层 。 

计算 机 A 








计算 机 B 





















































图 11-3 ”从 一 台 计 算 机 到 另 一 台 计算 机 的 数据 传输 示意 图 。 在 发 送 端 〈 计 算 机 A) 上 
逐 层 封装 ， 在 接收 端 (计算 机 B) 上 对 应 解 封装 


对 于 以 太 网 的 讨论 参见 11. 3.2 节 。 

6. 层 接口 

图 11-4 显示 了 从 一 个 层 传递 到 另 一 个 层 的 对 象 ， 并 给 出 了 层 的 实现 位 置 。 其 中 ， 计 算 机 A 
使 用 TCP/IP 连接 到 计算 机 B。 两 台 计 算 机 中 的 应 用 层 都 是 用 户 使 用 软件 的 一 部 分 ， 如 Web 浏 
览 器 或 电子 邮件 程序 。 传 输 层 、 网 络 层 和 数据 链 路 层 通常 在 操作 系统 中 实现 ， 而 物理 层 通常 实 
现 于 网 络 接口 硬件 中 〈 称 为 网 卡 ， 或 NIC， 这 是 在 个 人 计算 机 电路 板 中 的 物理 插件 上 实现 的 ) 。 

图 11-4 不 仅 显 示 了 数据 在 层 之 间 的 传递 ， 还 说 明了 每 层 的 数据 是 什么 。 如 果 通 信 链 路 建 
立 并 且 传输 数据 没有 错误 ， 那 么 计算 机 A 任何 层 的 输出 〈 数 据 会 向 下 传递 到 下 一 层 ) 片刻 后 
将 成 为 计算 机 B 中 相同 层 的 输入 〈 数 据 会 向 上 传递 到 对 应 位 置 的 层 ) 。 

例如 ， 在 计算 机 A 中 ， 数 据 链 路 层 形成 的 特定 网 络 的 数据 帧 通常 会 经 过 A 的 物理 层 到 达 B 
的 物理 层 。 但 是 如 果 这 些 数 据 帧 能 绕 过 物理 层 并 且 直 接 传 到 B 的 数据 链 路 层 ， 那 么 这 一 层 就 能 
对 这 些 数据 帧 进行 识别 并 直接 解码 。 这 些 数据 帧 中 的 数据 会 被 向 上 传递 到 计算 机 B 中 的 网 络 
层 。 类 似 地 ， 从 计算 机 A 传输 层 中 过 来 的 传输 协议 包 会 被 计算 机 B 的 传输 层 识 别 一 一 无 论 这 
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些 协议 包 是 否 在 A 中 向 下 传输 ， 通 过 连接 ， 再 在 B 中 向 上 传输 ， 也 无 论 它们 是 否 直 接 传 给 B 
的 传输 层 。 图 11-5 中 描述 了 包含 在 以 太 网 帧 中 的 全 数据 是 如 何 被 传递 出 去 的 。 
计算 机 A 







-用户 软 件 ， ”圭一 一 信息 芭 者 数据 沪 
“ 本 ge 
i 网 络 协 议 数据 报 
.驱动 程序 ， 一 特定 网 络 的 数据 由 
电信 和 号 








图 11-4 显示 了 计算 机 A 使 用 TCP/IP 连接 到 计算 机 B 的 过 程 ， 指 出 了 
层 之 间 传 递 的 数据 类 型 ， 以 及 每 一 层 通常 是 在 哪里 实现 的 
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| 
EL 








以 太 网 头 部 -a Re 
图 11-5 上 部 为 来 自 以 太 网 连接 的 检查 信息 ， 中 部 是 包含 其 他 
协议 报头 的 数据 帧 ， 其 中 有 要 传输 的 因特网 报 文 
以 上 内 容 对 每 一 层 的 基本 责任 做 了 简单 概括 。 这 样 做 是 为 了 确保 传 给 它 的 对 象 (数据 / 包 / 
帧 或 其 他 对 象 ) 能 够 送 到 接收 计算 机 的 对 应 层 。 


11.3 以 太 网 概述 


目前 用 于 网 络 的 最 常见 硬件 格式 可 能 是 有 线 以 太 网 和 WiFi。 这 两 个 都 是 由 IEEE 标准 (分 
别 为 802.2 和 802. 11) 定义 的 ， 它 们 有 许多 相似 之 处 。 我 们 把 WiFi 留 到 后 面 (参见 11.7.1 
节 ) 介绍 ， 接 下 来 将 研究 开创 性 的 以 太 网 协议 。 

以 太 网 最 初 作为 一 种 网 络 标准 ， 使 用 同 轴 电缆 〈 看 起 来 像 老式 有 线 电视 天 线 电缆 ) 进行 
传输 。 最 终 ， 它 在 电话 式 连接 器 ( RJ45 连接 器 ) 的 双 绞 线 /光纤 上 得 到 了 更 普遍 的 实现 ， 这 两 
种 方式 在 实践 中 都 比 同 轴 链 路 更 可 靠 。 另 一 种 名 为 令 牌 环 的 有 线 网 络 技术 共享 了 以 太 网 的 许多 
概念 ， 但 现在 基本 已 经 过 时 了 。 现 在 以 太 网 不 仅 用 于 连接 办 公 室 的 台式 计算 机 ， 还 为 许多 办 公 


[470] 
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室 提供 电话 连接 。 
有 线 以 太 网 根据 使 用 的 电缆 类 型 以 不 同 的 速度 运行 : 
同 轴线 高 达 10Mb/s ( 兆 比 特 每 秒 ， 通 常 写成 Mbps 或 Mbit/s)。 
五 类 双 绞 线 最 高 可 达 100Mb/s。 
六 类 双 绞 线 最 高 可 达 1Gbit/s， 也 称 为 千 兆 以 太 网 。 
光纤 可 超过 100Gbit/s。 


11. 3. 1 以 太 网 数据 格式 


以 太 网 帧 携带 了 46 ~ 1500 个 字 节 ”的 数据 ， 这 些 数据 会 通过 以 太 网 进行 传输 。 

图 11-6 显示 了 以 太 网 帧 格式 ， 即 数据 的 有 效 负载 在 以 太 网 头 部 和 尾部 之 间 。 数 据 链 路 层 
收 到 从 网 络 层 传递 过 来 的 中 数据 报 ， 并 被 要 求 将 这 个 报 文 从 A 的 接口 层 传输 到 B 的 接口 层 
(通过 接口 地 址 传输 ， 至 于 是 硬件 还 是 MAC 地 址 ， 后 面 会 看 到 ) 。 但 对 以 太 网 而 言 ， 它 只 是 在 
传递 一 个 名 为 数据 报 的 数据 块 而 已 ， 因 为 它 也 可 以 传递 其 他 类 型 的 数据 。 数 据 链 路 层 之 后 
会 形成 一 个 数据 帧 并 且 在 数据 块 的 前 面 加 入 三 项 信息 ， 在 数据 块 的 后 面 添 加 计算 的 校 验 和 。 这 
三 项 信息 分 别 是 目标 地 址 、 源 地 址 和 数据 类 型 。 当 这 些 信息 传递 到 物理 接口 时 ,会 在 前 面 加 上 
一 个 固定 信息 的 报头 。 这 样 做 的 目的 是 唤醒 连接 到 以 太 网 电缆 上 的 设备 ， 并 且 通 知 设备 即将 传 
输 一 个 以 太 网 帧 。 


固 取决 于 数据 类 型 ， 
Er es 大 小 为 46 到 1500 个 
l 8 位 比特 






a 4 字 节 ) 
OC | 一 一 一 一 >| 
以 天 网 头 部 以 大 网 尾部 

图 11-6 以 太 网 帆 的 内 部 细节 ， 头 部 和 尾部 将 含有 卫 数据 报 的 有 效 负载 封装 了 起 来 


这 个 称 为 循环 元 余 校 验 (CRC) 的 校 验 和 是 一 个 32 位 的 数字 ， 这 个 数字 是 通过 对 以 太 网 
帧 中 主要 元 素 的 计算 而 得 到 的 。 这 些 主要 元 素 包 括 目 标 地 址 、 源 地 址 、 数 据 类 型 ， 还 有 最 重要 
的 数据 有 效 负 载 本 身 。 校 验 和 的 目的 是 让 接收 设备 能 够 快速 且 容 易 地 判断 收 到 的 以 太 网 帧 是 否 
有 错误 。 

接收 端 要 对 接收 到 的 以 太 网 帧 进行 同样 的 计算 ,然后 将 计算 结果 与 数据 包 中 的 CRC 进行 
对 比 ， 如 果 不 一 致 ， 则 说 明 存在 错误 。 

在 这 个 运行 过 程 中 ,以 太 网 帧 像 是 一 个 电子 邮递 员 ， 将 信息 从 发 送 端 送 到 接收 端 ， 在 发 送 
端 明 确 了 目标 地 址 (要 发 给 谁 ) 和 它 自己 的 地 址 (让 接收 端 知道 是 谁 发 的 )， 也 明确 了 “ 信 ” 
里 装 了 什么 (类 型 )。 发 送 以 太 网 帧 与 发 送信 件 的 最 主要 区 别 在 于 ， 每 个 连接 到 以 太 网 的 接口 
都 收 到 了 同样 的 帧 , 但是， 不 是 目标 地 址 的 接口 会 忽略 掉 这 些 帧 。 

与 信件 一 样 ， 以 太 网 帧 在 传递 途中 有 时 也 会 丢失 、 延 妈 、 损 坏 ,， 或 者 遭遇 数据 丢失 一 一 可 
能 会 有 其 他 人 阅读 信件 内 容 ， 甚 至 改变 内 容 。 

有 趣 的 是 ， 出 于 测试 目的 ， 可 以 将 网 络 接口 设置 为 混杂 模式 ， 人 允许 它 读 取 每 个 数据 包 ， 而 
不 仅仅 是 那些 发 送 给 它 的 数据 包 。 





加 在 网 络 术 语 中 ,“ 字 节 ” 通 常 被 称 为 “ 八 位 比特 ”， 但 这 里 使 用 更 为 普遍 的 计算 机 术语 “ 字 节 ”。 
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11. 3.2 以 太 网 封装 


封装 用 于 数据 包 、 卫 数据 报 和 以 太 网 帧 中 的 数据 传输 ， 以 便 TCPZ 了 P 可 以 通过 以 太 网 传输 。 
在 11.2 节 中 讨论 TCP/IP 模型 中 的 层 时 ， 简 要 地 介绍 了 这 一 点 。 图 11-7 更 详细 地 解释 了 这 个 概 
念 ， 它 显示 了 一 个 有 效 负载 含 下 数 据 报 的 以 太 网 帧 ， 而 人 数据 报 本 身 携带 一 个 UDP 包 ，UDP 
包 反 过 来 又 传递 一 个 数据 块 。 所 有 这 些 封 装 设 计 的 目的 只 有 一 个 ， 就 是 将 数据 块 从 一 个 应 用 程 
序 发 送 到 另 一 个 应 用 程序 。 






以 太 网 帧 
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应 用 信息 包 
图 11-7 以 太 网 帧 如 何 携带 亿 报 文 。IP 报 文本 身 又 携带 应 用 程序 数据 的 TCP 数据 包 


非常 重要 的 一 点 是 ， 以 太 网 帧 将 它 含 有 的 内 容 从 一 个 硬件 接口 传输 到 同一 网 络 上 的 另 一 个 
硬件 接口 。 它 们 通常 是 连接 到 相同 以 太 网 的 两 台 机 器 或 具有 WiFi 接口 的 两 台 设 备 。 但 是 当 人 
们 向 另 一 个 网 络 上 的 机 器 发 送 数据 包 时 会 发 生 什么 呢 ? 这 种 工作 方式 将 利用 网 关 接 口 。 将 人? 
数据 报 发 送 到 另 一 个 网 络 意味 着 它 通过 一 个 网 络 上 的 以 太 网 传输 到 网 关 接 口 。 图 11-8 描述 了 
通过 不 同 网 络 将 计算 机 A 中 的 数据 传递 到 计算 机 B 的 过 程 。 图 11-8 中 的 两 个 网 关 通 过 两 台 网 
关 设 备 〈 路 由 器 ) 连接 到 一 起 。 在 这 种 情况 下 ， 当 一 个 从 计算 机 A 发 出 的 WiFi 数据 帧 〈 与 以 
太 网 帧 相似 ， 但 是 它 是 无 线 的 ) 被 网 关 路 由 器 收 到 时 ，IP 数据 报 会 从 WiFi 数据 帧 中 解 封 ， 然 
后 传递 到 网 络 层 。 之 后 会 将 数据 报 传递 到 一 个 连接 着 目标 路 由 器 的 不 同 网 络 接口 处 。 第 二 个 接 
口 会 将 中 数据 报 再 一 次 封装 ， 然 后 通过 下 一 个 链 路 把 它 发 送出 去 。 因 为 下 一 个 链 路 可 能 会 用 
不 同 的 技术 连接 到 本 地 网 络 ， 所 以 它 要 封装 到 一 个 适合 那个 网 络 的 数据 帧 中 。 当 目标 路 由 器 收 
到 这 个 数据 帧 后 ， 会 对 其 再 一 次 解 封 并 且 重 复 之 前 的 过 程 。 在 图 11-8 中 ， 最 后 一 个 链 路 为 以 
太 网 。 从 这 里 可 以 看 到 封装 工作 原理 ， 将 数据 打包 到 传输 包 中 ， 接 着 封装 到 IP 数据 报 中 ， 然 
后 再 使 用 各 种 数据 帧 ， 耳 数据 报 最 终 到 达 计 算 机 B， 在 那里 它 被 一 层 一 层 地 解 包 以 将 数据 交付 
给 应 用 程序 。 有 趣 的 是 ， 对 于 两 台 计 算 机 的 应 用 程序 来 说 ， 中 间 的 传输 过 程 是 看 不 见 的 一 一 它 
们 就 像 在 同一 台 计 算 机 上 进行 通信 的 〈 实 际 上 也 可 以 这 样 做 ) 。 传 输 层 也 类 似 ， 它 从 不 关注 从 
一 台 计 算 机 到 另 一 台 计 算 机 所 涉及 的 各 个 跃 点 。 

关于 这 个 过 程 的 最 后 一 个 注意 事项 是 ， 有 很 多 方法 可 以 完成 同样 的 事情 ， 并 且 在 网 络 中 涉 
及 很 多 细节 ， 需 要 一 整 本 教科 书 来 解释 。 但 是 ,简要 地 阐明 网 络 路 由 器 、 网 络 交换 机 和 网 络 集 
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线 器 之 间 的 区 别 也 是 很 有 帮助 的 。 参 考 图 11-8 所 示 的 路 由 器 将 两 个 网 络 在 网 络 层 进行 连接 。 
它们 检查 人 P 数据 报 ， 并 寻求 源 路 由 器 和 目标 路 由 器 之 间 的 最 佳 路 径 。 





计算 机 A 











应 用 层 到 应 用 层 的 链 路 


计算 机 到 计算 机 的 链 路 


IEEE 802.11 - WiFi 光纤 IEEE 802.3 - 以 太 网 


图 11-8 一 台 计 算 机 上 的 应 用 程序 通过 充当 网 关 接 口 的 两 台 路 由 器 
[472] 将 数据 发 送 到 另 一 个 网 络 上 的 另 一 台 计 算 机 

相 比 之 下 ， 以 太 网 交换 机 不 涉及 网 络 层 。 交 换 机 通常 在 数据 链 路 层 进行 操作 ， 从 而 知道 连接 
到 该 网 络 设备 的 硬件 地 址 。 交 换 机 将 多 个 网 络 段 连接 在 一 起 。 这 些 网 络 段 通常 是 办 公 室 或 学 校 以 
太 网 系统 中 的 16、32、64 个 或 更 多 的 子 网 。 交 换 机 智能 地 将 以 太 网 帧 从 一 个 子 网 传输 到 另 一 个 子 
网 ,方法 是 检查 以 太 网 帧 的 硬 连接 地 址 ， 并 将 这 些 地 址 与 它 知道 的 连接 到 每 个 段 的 机 器 匹配 。 

以 太 网 集线器 的 工作 层 甚至 比 交 换 机 更 低 。 集 线 器 是 具有 多 个 以 太 网 端口 的 纯 物理 层 设 
备 。 它 将 在 一 个 端口 接收 到 的 每 个 数据 包 复 制 到 所 有 其 他 端口 。 从 技术 上 讲 ， 连 接 到 该 集线器 
的 所 有 机 器 都 在 同一 网 络 段 上 (区别 于 将 不 同 网 络 段 连接 在 一 起 的 交换 机 )。 而 在 流量 过 大 的 
时 候 ， 它 们 的 效率 往往 比 交 换 机 低 得 多 ， 所 以 集线器 使 用 得 越 来 越 少 了 。 


11. 3.3 ”以 太 网 载波 侦 听 


以 太 网 、WiFi 和 许多 其 他 网 络 本 质 上 是 共享 总 线 系统 。 这 意味 着 所 有 连接 的 机 器 都 需要 
共享 对 相同 传输 介质 的 访问 。 即 使 每 台 计 算 机 都 连接 一 条 物理 电缆 (如 以 太 网 中 的 五 类 双 绞 
线 ) ， 连 接 到 该 网 络 段 的 所 有 计算 机 〈 包 括 通过 集线器 通信 的 计算 机 ) 也 必须 共享 通信 信道 。 

以 太 网 帧 是 物理 广播 的 ， 因 此 所 有 连接 的 设备 都 可 以 “看 到 ”每 一 帧 。 在 正常 的 操作 中 ， 
所 有 的 接口 都 将 接收 到 每 一 帧 ,它们 对 每 一 帧 进行 解码 ， 解 码 到 足以 看 见 目标 MAC 地 址 。 如 
果 这 是 针对 某 一 接口 的 ， 或 者 是 针对 所 有 机 器 的 〈 例 如 ,广播 数据 包 ) ， 那 么 该 接口 将 开始 对 
数据 包 进 行 合适 的 处 理 。 交 换 机 还 将 处 理 它们 所 负责 的 分 组 ， 例 如 那些 要 寻 址 到 男 一 网 络 段 上 
的 机 融 的 分 组 。 

硬件 交付 (物理 层 ) 尽 最 大 努力 尝试 有 效 负 载 上 数据 报 的 传递 ， 但 并 不 能 保证 任何 事情 。 
硬件 层 不 检查 数据 帧 是 否 被 任何 机 器 接收 ， 或 者 它们 是 否 被 正确 接收 。TCPZIP 模型 中 的 较 高 
层 负责 此 类 检查 或 确保 传输 工作 顺利 进行 。 

网 络 上 没有 一 个 单独 的 站 点 “控制 ”以 太 网 链 路 ， 如 果 两 台 机 器 必须 同时 传输 数据 ， 那 
么 谁 先 传输 呢 ? 为 了 解决 这 个 问题 ， 以 太 网 的 设计 者 指定 所 有 连接 到 共享 链 路 ( 称 之 为 信道 ) 
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的 机 器 〈 即 工作 站 ) 必须 使 用 一 种 称 为 带 有 冲突 检测 的 载波 侦 听 多 路 存 取 (CSMAACD) 策略 
来 传输 数据 : 

。 载波 侦 听 ( CS ) 一 一 监听 另 一 个 台 设 备 是 否 在 使 用 信道 ， 如 果 是 ， 则 等 待 信道 空闲 
( 即 等 待 间隙 ) 。 一 旦 信道 空闲 ， 它 将 开始 传输 数据 。 对 于 以 太 网 〈( 见 图 11-7) ， 要 传 
输 的 第 一 部 分 是 报头 ， 它 开始 于 一 个 固定 序列 ， 这 个 序列 由 56 个 交替 出 现 的 1 和 0 
(10101010...10) 组 成 。 

。 多 路 存 取 ( MA) 一 一 意味 着 其 他 站 点 也 可 能 在 同一 信道 上 等 待 空闲 时 间 。 

。 冲突 检测 ( CD) 一 一 如 果 信 道 繁 忙 且 有 很 多 站 点 , 很 有 可 能 两 个 站 点 同时 开始 传输 ， 
或 者 几乎 同时 开始 传输 。 所 以 当 站 点 开始 发 送 时 ， 它 要 “监听 ”信道 。 如 果 该 站 点 在 
信道 上 没有 正确 地 “ 听 到 ”自己 的 序言 ， 它 将 注意 到 自己 的 传输 正在 发 生 冲突 。 这 通 
常 是 因为 男 一 个 站 点 也 开始 发 送信 和 号。 所 以 一 旦 一 个 站 点 注意 到 这 一 点 ， 就 会 发 送 一 
个 停 发 信号 ， 以 确保 其 他 站 点 也 会 注意 到 冲突 。 然 后 它 停止 传输 并 等 待 一 段 随机 的 时 
间 〈 称 为 回 退 时 间 ) 。 之 后 它 再 试 一 次 。 与 此 同时 ， 另 一 个 发 送 站 点 也 停 下 来 等 待 ， 
但 很 可 能 等 待 了 不 同 的 时 间 。 

CSMAZCD 在 实践 中 非常 有 效 ， 但 是 当 网 络 变 得 拥挤 并 且 有 很 多 用 户 和 大 量 的 流量 时 ， 电 

台 往 往 会 花 更 多 时 间 在 等 待 回 退 时 间 上 ， 而 在 不 是 发 送 上 。 因 此 ， 将 网 络 划 分 为 不 同 的 段 是 很 
常见 的 。 站 点 在 自己 的 网 络 段 中 共享 物理 通道 , 但 不 和 其 他 网 络 段 上 的 设备 共享 通道 。 正 如 在 
11. 3.2 节 中 看 到 的 ， 网 络 可 以 使 用 交换 机 划分 为 不 同 的 网 络 段 。 

大 多 数 WiFi 版 本 也 使 用 某 种 CSMAVCD 来 管理 传输 通道 的 共享 ( 它 主 要 是 一 种 叫 作 CSMA/ 

CA 的 变 体 ， 可 以 改变 冲突 检测 从 而 避免 碰撞 ， 但 大 致 的 方法 是 一 样 的 ) 。 尽 管 分 段 可 以 很 容易 
地 解决 总 线 以 太 网 系统 的 效率 问题 ， 但 是 在 无 线 网 络 中 ， 很 棘手 的 一 点 是 信号 并 不 局 限于 物理 
电费。 正 是 基于 这 个 原因 ， 更 快 的 无 线 网 络 标准 使 用 了 许多 不 同 频率 的 多 个 子 信道 ， 并 在 繁忙 
的 位 置 使 用 低 功 耗 的 小 区 间 。 


11.4 网 络 层 

网 络 层 使 用 因特网 协议 (IP) 让 主机 与 主机 进行 通信 ， 主 机 可 以 在 世界 的 两 端 ， 或 者 在 隔 
壁 ， 或 者 是 同一 台 计 算 机 。 

主机 由 不 同 的 卫 地 址 区 分 。 最 初 的 想法 是 ， 每 个 主机 都 有 一 个 唯一 的 卫 地 址 ， 但 是 可 用 
的 地 址 〈 使 用 原始 的 下 标准 ) 早 就 耗 尽 了 ， 因 此 开发 了 一 些 机 制 来 重用 了 P 地 址 ， 或 者 允许 不 
同 的 机 器 有 相同 的 卫 地址 ,使 同样 的 也 地 址 共存 。 


11. 4.1 IP 地 址 


在 撰写 本 文 时 ， 大 多 数 人 仍然 使 用 IPv4 来 识别 整个 家 庭 和 办 公 室 的 设备 ， 但 IPv6 也 越 来 
越 多 地 被 使 用 。 卫 地 址 是 一 个 软件 值 〈 不 是 像 物 理 MAC 地 址 那样 内 置 在 硬件 上 ) ， 可 以 由 操 
作 系统 进 行 更 改 ， 甚 至 可 以 通过 一 些 协议 进行 远程 操作 。 

IPv4 地 址 是 32 位 的 ， 并 且 表 示 方 法 为 将 4 个 8 位 整数 转换 为 十 进 制 (不 是 十 六 进 制 )， 比 
如 192. 168. 12.9。 

网 络 上 的 每 台 可 见 的 计算 机 都 应 该 有 一 个 唯一 的 全 地 址 (而 稍 后 讲 到 的 任 播 ,会 是 一 个 
例外 ) 。 然 而 ， 私 有 (或 孤立 的 ) 网 络 可 以 使 用 任何 地 址 。 卫 地 址 中 每 个 整数 都 是 8 位 的 ， 在 
0 ~255 之 间 ， 所 以 有 2”=430 001 000 000 个 可 能 的 地 址 。 这 看 起 来 可 能 很 丰富 ， 但 许多 地 址 和 


加 ”从 技术 上 讲 ， 具 有 全 地 址 的 是 网 络 接口 ， 因 此 具有 多 个 网 络 接口 的 计算 机 可 能 具有 多 个 卫 地 址 。 
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地 址 范围 都 是 保留 的 ， 而 一 些 其 他 的 地 址 只 用 于 表示 特殊 的 操作 ， 因 此 这 些 一 般 都 无 法 使 用 。 

在 框 11. 2 中 将 进一步 研究 IPv4 地 址 的 结构 。 

IPv4 地 址 分 配 

IP 地 址 分 配 

在 历史 上 ， 耳 地址 范围 根据 头 字 节 (也 就 是 耳 地 址 AAA. bbb. ccc. ddd 中 的 “AAA”) 被 分 配给 不 同 
的 顶级 组 织 。 在 早期 因特网 中 ， 许多 大 型 组 织 迅速 采取 行动 ， 保 留 自己 的 卫 地 址 空间 。 例 如 ， 从 017 开 
始 的 所 有 IP 地 址 都 分 配给 了 苹果 公司 ， 所 有 从 056 开始 的 地 址 均 为 美国 邮政 服务 。 

后 来 ， 随 着 IPv4 地 址 在 世界 范围 内 被 逐渐 用 尽 ， 大 部 分 早期 的 分 配方 式 被 放弃 ， 取而代之 的 是 将 地 址 
分 配 到 5 个 区 域 组 织 (区域 互联 网 注册 中 心 )， 比 如 APNIC( 亚太 网 络 信 息 中 心 )， 来 负责 所 在 地 区 的 管理 。 

更 多 关于 IP 地 址 的 内 容 

进一步 检查 一 个 了 P 地 址 ， 例 如 192. 168. 1.234。 第 一 位 数 ( 在 左边 ) 指定 网 络 ， 最 后 一 位 数 ( 在 右边 ) 
标识 连接 到 该 网 络 的 主机 接口 。 通 常 ， 主 机 信息 可 以 识别 哪些 计算 机 是 连接 的 。 由 于 有 不 同 大 小 的 网 络 ， 
有 不 同 数 量 的 计算 机 ， 所 以 网 络 和 主机 接口 部 分 之 间 的 分 割 标识 几乎 可 以 出 现在 这 串 数字 的 任何 地 方 。 

对 于 上 面 给 定 的 例子 ，192. 168. 1 可 能 是 网 络 ，234 可 能 是 0~255 之 间 的 一 台 设 备 (这 个 范围 内 ， 
包括 0 和 255 在 内 的 一 些 数字 是 保留 的 ) 。 然 而 ， 在 一 个 拥有 超过 255 台 计 算 机 的 网 络 中 ， 可 以 以 不 同 的 
方式 划分 这 个 范围 。 例 如 ，192. 168 可 以 指定 网 络 ， 而 机 器 是 1.234。 这 将 允许 在 网 络 上 有 近 65 000 台 不 
同 的 计算 机 。 分 割 线 可 以 在 任何 地 方 ， 所 以 用 二 进 制 来 表示 它 可 能 会 更 容易 。 这 里 有 一 种 分 割 方式 ， 地 
址 的 最 后 一 个 字 节 指定 了 主机 接口 〈 粗 体 文本 所 示 ) ， 即 11000000 10101000 00000001 11101010 ， 而 另 
一 种 ， 最 后 两 个 字 节 指定 了 主机 接口 ， 即 11000000 10101000 00000001 11101010。 

分 割 不 需要 在 字 节 边界 上 ， 所 以 如 果 想 要 保留 最 后 的 10 位 来 指定 主机 接口 ， 可 以 做 如 下 分 割 : 
11000000 10101000 00000001 11101010。 这 意味 着 可 以 根据 所 使 用 的 网 络 体系 结构 对 相同 的 IP 地址 进行 
不 同 的 解释 。 

如 果 一 台 计 算 机 (主机) 有 多 个 连接 到 因特网 的 网 络 接口 ， 那 么 每 个 接口 都 可 以 有 一 个 
不 同 的 全 地 址 。 但 是 ， 如 果 两 个 接口 连接 到 同一 个 网 络 ,， 那么 全 地 址 必须 是 不 同 的 。 

IPv6 

人 们 将 使 用 128 位 地 址 的 正版 本 (JIPv6) 。 为 方便 起 见 ， 这 些 通常 写成 8 组 ， 每 组 为 4 个 
十 六 进 制 数 的 形式 ， 如 210F:6154:0017:9FBB:0000:0000:0000。 

这 是 一 组 相当 长 的 数字 〈( 太 长 以 至 于 不 能 用 二 进 制 来 编写 ) ，IPv6 地 址 中 往往 包含 长 串 的 
0。 在 实践 中 ,任何 长 字符 串 地 址 中 的 0 都 可 以 被 “: :” 代 蔡 。 该 标准 还 允许 在 每 个 部 分 中 省 
略 前 导 零 (例如 ，00ab 可 以 写成 ab)。 因 此 ， 把 上 面 的 IPv6 地 址 写 为 210F:6154:17:9FBB:: 就 大 
大 减少 了 输入 字符 的 数量 。 

使 用 128 位 地 址 范围 的 IPv6 可 以 支持 大 量 的 主机 地 址 。 事 实 上 ， 有 多 达 2 一 个 不 同 的 地 址 
(尽管 包含 一 些 特 殊 的 或 保留 的 地 址 ) 。 如 此 多 的 地 址 数量 ， 不 太 可 能 在 短 时 间 内 耗 尽 。 


11. 4.2 网 络 数据 包 格式 


就 像 携带 下 数据 报 〈 见 图 11-7) 的 以 太 网 帧 一 样 ， 卫 数据 报 本身 也 有 一 个 清晰 的 结构 。 
除了 它 自己 的 有 效 负载 (通常 是 TCP 或 UDP 数据 包 ) 之 外 ， 还 有 一 个 包含 多 个 信息 项 的 头 部 。 

最 重要 的 头 部 信息 是 源 和 目标 的 卫 地 址 以 及 一 个 协议 类 型 (也 就 是 它 携 带 了 什么 ) 。 以 太 
网 帧 也 有 源 和 目标 地 址 的 字段 ， 但 是 这 些 是 硬件 (MAC) 地址 ， 因 为 它们 在 物理 层 或 数据 链 
路 层 上 运行 。 网 络 层 使 用 卫 数据 报 来 指定 发 送信 息 的 主机 接口 〈 即 设备 ) 以 及 接收 这 个 信息 
的 目标 主机 接口 。 由 于 这 来 自 网 络 层 ， 所 以 地 址 被 指定 为 JP 地址。 

可 见 的 了 地 址 在 网 络 中 是 唯一 的 ， 因 此 发 送 设 备 可 以 通过 给 出 目标 的 他 地址 来 指定 信息 
要 发 送 到 哪里 。 接 收 主机 接口 同样 只 能 “看 到 ”一 个 主机 接口 。 有 了 这 个 IP 地 址 ， 就 知道 它 
是 从 哪里 发 出 的 。 
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在 一 个 让 地址 可 见 的 小 网 络 上 ，IP 数据 报 能 从 一 个 主机 发 送 到 另 一 个 主机 ， 并 且 可 以 被 
另 一 台 在 这 个 网 络 上 的 主机 接收 。 然 而 ， 考 虑 到 全 球 互联 网 ， 你 的 家 用 计算 机 无 法 知道 所 有 其 
他 计算 机 的 位 置 一 一 在 一 个 地 方 有 太 多 计算 机 可 供 选 择 一 一 因此 ， 将 数据 包 发 送 到 未 知 目的 地 
的 机 制 是 存在 的 。 这 是 路 由 的 功能 (参见 11.3 节 )。 

在 讨论 信息 包 的 路 由 之 前 ， 应 该 注意 到 ， 卫 数据 报头 也 携带 信息 字段 ， 包 括 指定 所 承载 数 
据 的 长 度 、 生 存 时 间 (TITL) 、 一 些 警 告 拥塞 的 标志 、 数 据 包 处 理 的 标志 以 及 头 部 的 校 验 和 
(接收 机 器 用 于 确定 接收 包 的 头 没有 被 损坏 ) 。 


11.4.3 路 由 


路 由 是 确保 IP 数据 报 能 被 传递 到 正确 的 网 络 和 目的 地 的 过 程 。 如 果 目 标 地 址 的 网 络 部 分 
与 当前 网 络 相 同 ， 那 么 路 由 意味 着 将 数据 报 传递 到 该 网 络 上 的 另 一 台 主 机 上 。 在 这 种 情况 下 ， 
必须 咨询 路 由 表 ， 以 找 出 数据 报 发 送 的 路 径 。 

在 一 个 通过 互联 网 服务 提供 商 (ISP) 连接 到 因特网 的 小 型 家 庭 网 络 中 ， 路 由 表 可 能 会 向 
ISP 发 送 所 有 外 部 流量 ， 并 将 其 交 给 它们 处 理 。 

在 更 大 的 网 络 中 ， 路 由 表 可 以 根据 目标 人 P 地 址 的 网 络 部 分 ， 指 定 发 送 哪个 数据 报到 哪 台 
机 天 的 接口 。 要 实现 该 功能 的 设备 应 该 连接 到 正确 的 网 络 (或 者 应 该 知道 通 向 正确 网 络 的 路 
径 ) 以 及 当前 的 网 络 。 这 种 进行 路 由 的 主机 称 为 路 由 器 。 它 连接 到 至 少 两 个 网 络 并 且 将 全数 
据 报 从 一 个 网 络 传递 到 另 一 个 网 络 。 

一 般 的 方法 是 ， 如 果 路 由 表 知 道 如 何 完成 他 数据 报 的 交付 ， 那 么 就 可 直接 传递 ， 否 则 ， 
它 将 被 发 送 到 一 个 默认 路 由 器 。 如 果 一 个 本 地 网 络 连接 到 一 个 大 的 网 络 ， 当 这 个 大 的 网 络 连接 
到 一 个 更 大 的 网 络 时 ， 路 由 机 器 通常 被 称 为 网 关机 器 。 

每 个 主机 、 路 由 器 和 网 关 都 包含 一 个 内 部 路 由 表 。 这 个 表 通 常 包含 多 个 行 。 每 一 行 指定 一 
个 中 地 址 或 一 个 范围 的 人 地址 。 里 面 的 条 目 确定 应 该 使 用 哪个 网 络 接口 将 卫 数据 报 发 送 到 不 
同 的 地 址 ， 而 且 几 乎 总 是 有 一 个 默认 路 由 〈 它 将 处 理发 送 到 未 知 地 址 的 数据 报 ) 。 

当 第 一 次 向 远程 计算 机 发 送 一 个 耳 数据 报时 ， 发 送 机 器 可 能 不 知道 在 哪里 找到 那 台 计 算 
机 。 目 的 IP 地 址 将 不 会 在 路 由 表 中 找到 ， 因 此 数据 报 被 转发 到 默认 的 路 由 器 一 一 可 能 是 一 个 
网 关 路 由 器 ， 它 将 数据 包 传 递 给 它 连接 到 的 另 一 个 网 络 。 如 果 该 网 络 不 包含 目标 机 器 ， 那 么 这 
个 过 程 将 在 路 由 器 上 重复 ， 并 将 其 发 送 到 第 二 个 网 络 的 网 关 路 由 器 。 这 个 过 程 不 断 重复 ， 直 到 
IP 数据 报到 达 一 个 “知道 ”哪个 主机 有 那个 IP 地 址 的 网 络 或 路 由 器 。 这 个 路 由 过 程 确保 不 需 
要 设备 知道 如 何 到 达 目 的 地 的 所 有 细节 ， 它 只 需要 知道 在 自身 不 能 识别 地 址 的 情况 下 把 数据 包 
发 送 到 哪里 ， 这 就 像 邮 政 员 工 在 全 球 范围 内 投递 信件 一 样 。 当 地 邮局 不 承认 目的 地 地 址 ， 所 以 
把 信 交 给 地 区 办 公 室 ， 然 后 把 它 交 给 一 个 更 大 地 区 的 办 事 处 ， 再 后 面 是 一 个 国家 办 事 处 。 最 
后 ， 这 封 信 被 传递 到 了 相应 的 国家 ， 在 那里 ， 它 会 先 被 送 到 行政 地 区 ， 然 后 是 更 小 的 区 域 ， 接 
着 是 当地 的 办 公 室 ， 然 后 交 给 一 个 确切 知道 该 送 到 哪 所 房子 的 邮政 工人 。 

在 一 个 包 成 功 地 从 源 地 址 路 由 到 目的 地 之 后 ， 机 器 和 机 器 之 间 通 过 缓存 路 由 信息 来 学 习 路 
由 。 下 一 次 ， 当 再 有 一 个 信息 包 被 发 送 到 那个 地 址 时 ， 这 些 机 器 将 简单 地 重复 相同 的 路 由 路 径 
(假设 没有 错误 、 延 迟 或 拥塞) 。 


11. 4.4 单 播 与 多 播 


IP 数据 报 通 常 被 发 送 到 一 个 IP 地 址 ， 这 个 地址 意味 着 一 台 机 器 上 的 一 个 主机 接口 。 这 
些 普通 的 IP 地 址 被 称 为 单 播 地 址 。 
相 比 之 下 ， 多 播 地 址 允许 该 网 络 上 的 任何 “ 感 兴 趣 的 主机 ”接收 到 发 送 的 消息 。 从 224、 
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239 或 其 他 任何 内 容 开始 的 数据 报 ， 包 含 了 控制 消息 和 其 他 特定 的 或 保留 的 消息 。 这 些 多 播 消 
息 通 常会 被 网 络 上 所 有 的 主机 接口 进行 接收 和 解码 。 例 如 ， 地 址 为 224. 0. 1.1 的 他 数 据 报 包含 
了 网 络 时 间 协 议 (NTP) 的 广播 消息 ， 这 将 允许 网 络 上 的 任何 计算 机 使 用 网 络 附加 计时 器 来 同 
步 其 内 部 软件 时 钟 。 

非 网 络 部 分 为 二 进 制 的 地 址 (例如 ，x. y. 255. 255 或 x.y. z.255) 是 一 个 广播 地 址 ， 它 会 发 
送 到 该 网 络 上 的 所 有 主机 。 


11. 4.5 任 播 


任 播 ， 意味 着 将 单个 消息 发 送 到 一 组 服务 器 ， 这 些 服务 器 可 以 在 地 理 上 分 散 开 来 。 尽 管 已 
经 注意 到 可 见 的 他 地 址 应 该 是 唯一 的 , 但 是 任 播 作为 一 种 相对 较 新 的 技术 打破 了 这 一 规则 。 

在 任 播 方式 下 ，IP 数据 报 都 是 沿 着 最 短路 径路 由 发 送 的 ， 并 交付 给 具有 相同 全 地 址 组 中 
的 一 个 成 员 ， 也 就 是 说 交付 给 网 络 中 最 近 的 成 员 (这 意味 着 具有 最 低 延 迟 时 间 的 成 员 一 一 最 短 
交付 时 间 ) 。 

通过 给 多 个 主机 相同 的 耳 地 址 ， 从 而 提供 多 个 与 一 个 卫 地 址 相关 联 的 元 余 实 例 是 它 的 实现 
方式 。 这 对 于 DNS 服务 器 是 最 有 效 的 。 关 于 DNS 服务 器 的 内 容 将 在 11.4.6 和 11.4.7 节 介绍 。 


11.4.6 命名 


因为 在 访问 网 站 、 发 送 电子 邮件 和 连接 服务 器 时 ， 要 记 住 IP 地址 是 非常 不 方便 的 ， 所 以 
因特网 有 一 个 命名 服务 ， 这 样 卫 地 址 就 可 以 有 一 个 或 多 个 与 之 关联 的 名 称 。 所 有 的 主机 都 必 
须 有 IP 地 址 ， 但 并 不 是 所 有 的 主机 都 需要 有 名 称 (当然 ， 如 果 没 有 四 地 址 ， 就 不 能 有 名 称 ) 。 

就 像 全 地址 一 样 ， 在 可 见 的 网 络 上 ， 名 称 也 必须 是 唯一 的 。 例 如 ，www. kent. ac. uk 映射 
到 为 129. 12. 10. 249 的 人 地 址 。 在 Web 浏览 器 中 输入 http :和 129. 12. 10. 249 作为 URL 将 显示 肯 
特大 学 的 网 站 ， 但 大 多 数 人 会 发 现 ， 记 住 www. kent. ac. uk 比 记 住 完整 的 全 地 址 要 容易 得 多 。 

因为 名 字 是 按 等 级 顺序 排列 的 ， 所 以 记忆 起 来 简单 。 例 如 ， 可 以 猜测 ，library. kent ac. uk 
将 把 浏览 者 带 到 英国 肯特 大 学 的 图 书馆 网 站 。 同 样 ，library. canterbury. ac. uk 将 把 浏览 者 带 到 
新 西 兰 的 坎特伯雷 大 学 。 

就 像 分 析 邮 政 地 址 那样 ， 下 面 我 们 具体 ( 右 到 左 ) 分 析 library. canterbury. ac. uk: 

® uk 国家 或 顶级 组 织 。 每 个 国家 的 当局 负责 分 配 名 称 。 在 英国 ， 这 是 一 个 叫 作 Nomi- 

net 的 组 织 。 
指定 一 个 子 空间 ， 单 独 管理 。 在 这 里 ， 指 英国 学 术 界 = 。 
kent 一 一 标明 了 一 个 控制 自己 名 称 空间 的 组 织 (在 本 例 中 ， 肯 特大 学 “拥有 ”以 
kent. ac. uk 结尾 的 名 称 空间 ) 。 

。 library 一 一 一 个 由 组 织 (肯特 大 学 ) 指定 的 名 称 ， 用 来 指示 特定 的 服务 或 主机 接口 。 

处 理 名 称 空间 的 责任 被 委托 给 不 同 的 国家 和 组 织 ， 因 此 ， 除 了 处 理 国家 和 组 织 名 称 之 外 ， 
并 不 需要 单一 的 全 局 目录 。 基 于 历史 原因 ， 美国 一 些 非常 突出 的 非 国家 顶级 域名 ( 包 
括 . com,. edu 和 . org) 能 够 被 有 效 地 管理 ， 就 好 像 这 些 顶 级 域名 是 . us 国家 代码 中 的 一 部 分 一 
样 (在 实际 中 . us 没有 多 少 人 使 用 ) 。 

如 上 所 述 ， 顶 级 域 (国家 ) 的 名 称 在 全 球 范 围 内 被 分 配 ， 但 是 在 一 个 国家 内 部 ， 对 名 称 
空间 的 处 理 方式 非常 不 同 。 只 要 允许 注册 ， 任 何人 都 可 以 在 任何 国家 顶级 域名 中 使 用 名 称 ， 并 
没有 类 似 主 机 接口 、 计 算 机 或 组 织 需要 驻 留 在 这 个 国家 内 的 这 种 技术 上 的 要 求 。 这 为 一 些 国 家 








ac 











晶 有 几 个 基本 一 致 的 子 空间 名 称 。 例 如 ， 代 表 学 术 的 . ac 和 代表 教育 的 .edu 在 世界 范围 内 都 被 用 于 指定 大 学 ， 
不 同 的 国家 选择 其 中 的 一 种 。 同 样 ,. com 和 . co 大 致 相当 于 公司 域 ， 在 不 同 的 国家 使 用 。 


网 络 系 统 329 





带 来 了 很 大 的 经 济 支 持 。 例 如 ， 图 瓦 卢 被 授予 的 以 国家 代码 结尾 的 子 域名 . tvY， 大 部 分 已 经 卖 
给 了 全 球 的 电视 台 而 不 是 图 瓦 卢 国 内 的 公司 。 


11. 4.7 域名 服务 器 


域名 服务 器 (DNS) 是 实际 执行 域 命名 服务 的 机 器 。 它 们 处 理 一 个 因特网 名 称 到 一 个 全 
地 址 的 映射 。 顶 级 域名 服务 器 处 理 国家 代码 或 顶级 域名 的 映射 ， 但 是 在 许多 领域 有 数 十 亿 台 机 
器 ， 一 台 机 器 不 可 能 维护 其 域 中 每 个 主机 接口 的 列表 。 基 于 这 个 原因 ， 以 及 想 要 避免 交通 瓶颈 
或 单 点 故障 的 目的 ， 命 名 是 由 一 组 分 布 式 机 器 完成 的 。 

每 台 机 器 都 维护 一 个 条 目的 数据 库 ， 例 如 : 


library.kent .ac.uk 129.12.10.251 


分 布 式 数据 库 是 在 大 量 的 DNS 设备 上 实现 的 ， 每 个 机 器 都 处 理 名 称 空间 的 一 部 分 。 然 而 ， 
几乎 所 有 的 域名 服务 器 都 有 备份 ， 以 防 失败 。 

DNS 查询 是 由 使 用 UDP 或 TCP 的 机 器 完成 的 ， 通常 在 端口 53 上 “(11.5.1 节 中 将 介绍 端口 
号 )。 客 户 端 (例如 你 的 计算 机 ) 中 用 于 与 DNS 联系 以 获得 名 称 解 析 的 软件 称 为 解析 器 。 

在 大 多 数 操作 系统 中 ， 解 析 器 有 许多 方法 将 名 称 解 析 为 P 地 址 。 其 中 包括 保留 一 个 本 地 
的 固定 主机 名 列表 ,保留 缓存 中 的 主机 和 它们 的 全 地 址 (之 前 被 请 求 的 主机 将 存储 在 缓存 
中 ) ， 以 及 一 个 DNS 的 固定 卫 地 址 。 因 为 如 果 客 户 端 试图 使 用 主机 名 而 不 是 IP 地 址 访问 DNS ， 
这 显然 是 行 不 通 的 (请 考虑 为 什么 这 是 不 可 行 的 ) 。 

本 地 缓存 或 先前 解析 的 地 址 有 一 个 时 间 限 制 ， 它 指定 缓存 中 每 个 条 目的 时 效 性 。 如 果 时 间 已 
经 过 期 ， 通 常 在 几 个 小 时 之 后 ，DNS 就 会 忘记 缓存 中 的 名 称 〈 也 就 是 说 ， 它 会 删除 该 条 目 ) 。 

11.4.7.1 名 称 查询 示例 

这 里 有 一 个 关于 域 mcloughlin. eu 的 例子 。 这 个 场景 是 一 个 位 于 美国 的 家 庭 计算 机 用 户 第 一 
次 想 要 访问 位 于 欧洲 的 URL 为 mcloughlin. eu 的 网 站 。 首 先 ， 该 用 户 将 URL 输入 Web 浏览 器 中 
并 按 Enter 键 。 这 台 计 算 机 就 应 该 将 一 个 HTTP ( 超 文本 传输 协议 ) 信息 发 送 到 域名 为 mclough- 
lin. eu 的 机 器 上 ， 要 求 网 页 “定位 ”在 那里 。 然 而 ， 要 发 送 任何 消息 ， 正 如 在 介绍 网 络 层 时 讲 
到 的 那样 ， 发 送 计算 机 首先 需要 知道 它 正在 通信 的 主机 接口 〈 网 页 服务 器 ) 的 IP 地 址 。 接 下 
来 将 会 发 生 什么 如 下 所 述 ， 并 在 图 11-9 中 加 以 说 明 : 






(4) .eu 域名 的 JP 地址 是 什么 


-edu 域名 IP 下 
(3 ) mcloughlin.eu ff, 
的 下 地 址 是 什么 “一 (5) mcloughlin.eu 


en A 
m IP 


mcloughlin.eu 


的 IP 地 址 












mcloughlin.eu IP 


(6) mcloughlin.eu 上 
的 下 地 址 是 什么 【全 二 
mcloughlin.eu 的 JP 岂 


mcloughlin.eu 
的 域名 
服务 器 


图 11-9 用 户 设 备 、ISP 和 各 种 DNS 服务 器 之 间 的 消息 序列 ， 用 来 
解析 域 mcloughlin. eu。 其 步骤 编号 与 本 节 中 的 序列 相对 应 
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1) 浏览 器 向 操作 系统 发 送 一 个 请 求 来 查找 主机 IP 地 址 (在 Linux 中 ， 这 可 能 是 调用 geth- 
ostbyname() 困 数 ) 。 

2) 内 置 的 操作 系统 解析 器 基于 本 地 的 解析 方法 。 通 常 它 会 保存 主机 名 与 卫 的 数据 对 ， 其 
中 包括 最 近 访 问 的 机 器 以 及 本 地 主机 文件 中 的 内 容 。 由 于 这 个 网 站 以 前 没有 访问 过 这 个 机 器 ， 
所 以 解析 器 不 会 在 本 地 找到 了 全 地址 。 

3) 解析 器 将 一 个 请 求 传 递 给 本 地 DNS， 这 是 由 它们 的 互联 网 服务 提供 商 (JSP) 维护 的 机 
器 。ISP DNS 服务 器 可 能 不 会 识别 这 个 名 称 〈 如 果 它 是 一 个 非常 不 受 欢迎 的 网 站 ) 。 

4) ISP DNS 服务 器 将 请 求 传递 给 根 域 名 服务 器 ， 以 找 出 顶层 . edu 域名 被 存储 的 位 置 。 根 
域名 服务 器 返回 一 个 . edu 域名 服务 器 的 IP 地 址 。 

5) ISP DNS 服务 器 向 该 服务 器 发 送 一 个 请 求 ， 询 问 哪 个 是 mcloughlin. eu 的 权威 域 服务 器 。 
该 回复 将 包含 另 一 个 DNS 的 全 地 址 ， 这 个 DNS 肯定 会 识别 mcloughlin. eu。 

6) 查询 是 对 权威 DNS 服务 器 进行 的 ， 以 查找 mcloughlin. edu 服务 器 的 实际 卫 地 址 。 该 回 
复 将 确定 在 所 有 网 络 设备 中 ， 哪 个 主机 接口 是 该 URL 的 服务 器 。 这 个 回复 最 终 被 传送 回 原始 
的 请 求 计 算 机 。 

7) 然后 ,美国 的 家 用 计算 机 间 就 会 生成 一 个 HTTP 信息 ， 发 送 给 mcloughlin. eu 的 80 端口 
(默认 的 HITP 端口 ) ， 请 求 从 该 URL 获得 的 网 页 。 

11.4.7.2 反 向 DNS 查找 

当主 机 需要 查找 与 特定 卫 地 址 相关 联 的 名 称 时 ， 有 时 还 需要 进行 反 向 查找 。 为 了 做 到 这 
一 点 ， 主 机 操作 系统 会 组 合并 广播 一 个 以 特殊 名 称 编码 的 查询 耳 地 址 。 这 个 名 称 包含 了 一 个 
IP 地 址 ， 不 过 它 的 数字 序列 颠倒 了 ， 并 且 以 “in-addr arpa” 的 形式 结束 。 例 如 ， 查 询 卫 地 址 
129. 12. 10. 249 ， 它 将 发 送 请 求 249. 10. 12. 129. in-addr arpa。 

如 果 这 个 下 地 址 确实 与 一 个 名 称 相关 联 ， 那 么 最 近 的 DNS 服务 器 将 以 名 称 kent. ac. uk 应 
答 。DNS 服务 器 可 以 这 样 做 ， 因 为 通常 在 它们 的 表 中 保存 了 关于 每 个 IP 地址 的 几 种 不 同类 型 
的 信息 ， 例 如 : 











将 名 称 映射 到 一 个 地 址 
将 地 址 映射 到 一 个 名 称 
给 男 一 个 地 址 取 别 名 

启动 权限 ， 这 表明 哪个 名 称 服务 器 对 记录 中 保存 的 信息 负 有 最 终 责 任 。 它 还 指定 了 记录 的 有 效 时 间 
在 这 里 有 多 种 额外 的 信息 
指定 哪个 主机 将 处 理 该 域 的 邮件 。 通 常 至 少 有 两 个 MX 记录 ， 目 的 是 提供 备份 ， 以 防 一 个 邮件 服务 器 宕 机 




























根 域名 服务 器 保存 了 顶级 域名 ， 以 前 有 13 个 ,来 自 不 同 的 硬件 制造 商 ， 运行 着 不 同 的 操 
作 系 统 ， 分 布 在 世界 各 地 。 后 来 ， 通 过 使 用 任 播 (参见 11.4.5 节 ) 将 13 个 卫 地 址 映射 到 13 
组 DNS 设备 。 

这 使 得 许多 机 器 可 以 提供 查询 ， 每 台 机 器 都 共享 一 个 卫 地 址 。 尽 管 在 观察 者 看 来 ， 只 有 
13 台 服 务 器 存在 ， 但 实际 上 有 很 多 。 

今天 ，Google 在 IPv4 中 运行 两 个 公共 DNS 服务 ， 分 别 是 8.8.8.8 和 8.8.4.4 (在 IPv6 中 ， 
它们 对 应 在 2001:4860:4860::8888 和 2001:4860:4860::8844 ) 。 





加 ”对 于 根 服 务 器 的 最 新 映射 ， 请 参阅 http:// www. root- servers. org。 
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11.5 传输 层 


传输 层 使 用 不 同 种 类 的 协议 在 网 络 上 传输 各 种 类 型 的 数据 。 在 传输 层 有 许多 协议 , 但 是 软 
件 开发 人 员 主 要 使 用 的 是 如 下 两 种 : 
。 传输 控制 协议 (TCP) 一 一 它 保 证 端 到 端的 全 双 工 通信， 确保 数据 包 通 过 会 话 以 正 
确 的 顺序 传递 到 应 用 程序 层 。 在 没有 错误 的 情况 下 ，TCP 是 可 靠 的 , 但 是 比 UDP 的 效 
率 低 ， 但 是 当 出 现 错误 或 拥塞 时 ， 它 可 能 会 延迟 。 
。 用 户 数据 报 协议 ( UDP) 一 一 是 一 种 尽 最 大 努力 传输 的 、 无 会 话 的 、 不 提供 报 文 到 达 确 
认 信 息 的 流传 输 方式 ， 不 能 保证 包 会 到 达 ， 也 不 能 保证 它们 会 以 正确 的 顺序 传递 到 应 
用 程序 层 。 然 而 ,与 TCP 相 比 ，UDP 的 传输 速度 要 快 得 多 ， 而 且 当 网 络 拥塞 时 ， 它 的 
通信 量 也 会 大 大 提高 。 
考虑 到 传输 机 制 的 选择 ， 软 件 开 发 人 员 将 根据 评估 网 络 、 数 据 类 型 和 消息 的 重要 性 来 决定 
想 要 使 用 的 协议 。 在 介绍 完 端口 号 的 概念 后 ， 会 依次 探讨 这 个 问题 。 


11.5.1 端口 号 


无 论 使 用 何 种 传输 协议 ， 任 务 都 是 从 一 个 应 用 程序 与 另 一 个 应 用 程序 通信 (通常 是 这 样 ， 
但 不 一 定 是 在 不 同 的 计算 机 上 ) 。 可 能 会 有 许多 应 用 程序 在 每 台 计 算 机 上 和 运行， 它们 自己 也 会 
进行 通信 ， 可 能 还 会 与 其 他 几 台 计算 机 进行 通信 。 

因此 ， 当 多 个 信息 包 在 一 组 不 同 的 计算 机 上 传输 时 ， 需 要 有 一 种 方法 来 指定 数据 包 属 于 哪 
个 应 用 程序 。 这 是 通过 使 用 一 个 16 位 的 端口 号 来 完成 的 ， 就 像 了 正 数 据 报 同时 指定 源 和 目标 人 P 
地 址 一 样 ， 每 个 TCP 和 UDP 数据 包 也 都 指定 源 和 目标 端口 。 

运行 在 计算 机 上 的 应 用 程序 可 以 请 求 操作 系统 允许 它们 “ 侦 听 ”到 达 特 定 端口 的 数据 包 ， 
这 意味 着 它们 将 接收 到 送 到 端口 的 任何 消息 (UDP) 或 者 连接 (TCP)。 应 用 程序 还 可 以 使 用 
操作 系统 将 数据 发 送 到 一 台 计 算 机 上 的 具体 端口 ， 这 个 计算 机 是 由 其 全 地址 指定 的 。 图 11-10 
中 给 出 了 这 个 过 程 的 一 个 说 明 ， 其 中 两 个 计算 机 上 的 几 个 应 用 程序 能 够 通过 不 同 的 端口 通信 ， 
但 是 共享 一 个 网 络 。 





图 11-10 在 一 台 计算 机 上 的 一 组 应 用 程序 与 在 另 一 台 计 算 机 上 的 一 组 应 用 程序 进行 通信 的 过 程 。 
发 送 的 各 种 TCP 和 UDP 数据 包 将 根据 它们 的 端口 号 传递 给 正确 的 应 用 程序 





全 双 工 ， 指 数据 在 两 个 方向 流动 。 
会 话 ， 意 思 是 在 传输 开始 之 前 建立 一 个 逻辑 连接 ， 在 传输 期 间 维护 ， 然 后 在 传输 结束 时 关闭 。 


DO OO 
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Ti UDP 


UDP 提供 了 数据 包 从 源 地 址 到 目的 地 的 最 佳 传输 。 最 大 的 努力 意味 着 网 络 ( 从 网 络 层 向 
下 ) 将 尝试 传递 数据 包 ， 但 是 UDP 本 身 并 不 能 保证 传输 ， 并 且 不 检查 数据 包 是 否 被 正确 接收 。 

在 应 用 程序 级 别 上 ， 程 序 员 可 能 希望 添加 这 样 的 功能 一 一 从 发 送 者 送 到 接收 者 ， 并 检查 通 
信和 是 否 成 功 一 一 但 这 不 是 由 UDP 自动 完成 的 。 相 比 之 下 ，TCP 确实 检查 了 错误 ， 并 可 以 重新 
传输 丢失 的 数据 包 ， 以 确保 传递 整个 消息 。 

UDP 缺少 “整个 消息 ”的 概念 ， 因 此 它 是 无 连接 的 。 这 意味 着 每 个 包 都 是 独立 传输 的 ， 
并 且 不 认为 传输 的 是 一 个 大 块 的 一 部 分 。 通 过 指定 接收 方 的 卫 地 址 和 端口 号 ，UDP 包 从 一 台 
机 器 发 送 到 了 另 一 台 机 器 。 

在 11.5.4 节 中 将 进一步 对 比 TCP 和 UDP。 


i1153 TeP 


TCP 使 用 发 送 方 与 接收 方 的 连接 来 传输 字 节 流 。 数 据 是 分 块 传输 的 ， 但 是 应 用 程序 并 不 知 
道 。 对 于 应 用 程序 来 讲 ， 只 是 一 个 数据 块 (无 论 大 小 ) 简单 地 从 发 送 机 器 转移 到 了 接收 机 器 。 

TCP 本 质 上 是 可 靠 的 ,不 像 UDP， 甚 至 耻 。 这 并 不 意味 着 TCP 更 好 ， 只 是 说 TCP 默认 有 
检查 传输 是 否 成 功 的 责任 。 也 可 能 应 用 程序 不 需要 确认 或 检查 的 功能 。 

为 了 确保 传输 的 可 靠 性 ，TCP 有 两 种 主要 的 机 制 来 检查 数据 包 是 否 丢失 或 错误 ， 然 后 重新 
发 送 丢 失 或 错误 的 数据 包 。 

TCP 链接 首先 在 两 个 端点 之 间 建 立 ， 这 些 端点 由 端口 号 和 卫 地 址 指定 。 一旦 建立 ，TCP 
链接 就 是 双向 的 。TCP 允许 同一 端口 (和 了 全 地 址 ) 同时 被 多 个 连接 使 用 (例如 ， 多 个 电子 邮 
件 客户 端 连接 到 一 个 电子 邮件 服务 器 ) 。 

当 传输 一 个 数据 块 时 ， 数 据 块 被 分 割 成 连续 的 片段 ， 然 后 被 封装 到 卫 数据 报 中 ， 并 以 流 
的 方式 发 送 给 接收 者 。 片 段 (粗略 地 将 它们 称 为 TCP 包 ) 由 一 个 标题 和 一 个 数据 有 效 负 载 
组 成 。 

标题 指定 了 源 端口 、 目 标 端 口 、 序 列 号 以 及 包括 校 验 和 在 内 的 很 多 其 他 信息 。 数 据 有 效 负 
载 包含 了 数据 流 的 一 部 分 ， 而 整个 流通 过 使 用 连续 的 片段 来 以 块 的 方式 进行 传递 。 对 于 特定 的 
段 ， 数 据 有 效 负载 可 能 是 被 传输 数据 的 下 一 部 分 ， 或 者 它 可 能 是 一 个 重新 传输 的 块 。 块 被 重新 
传输 可 能 是 因为 接收 方 没有 收 到 ， 也 可 能 是 收 到 了 ， 但 是 包含 了 错误 〈 通 过 校 验 和 可 以 发 现 错 
误 ) 。 在 某 些 片段 丢失 或 接收 错误 的 情况 下 ， 序 列 号 有 助 于 保持 正确 的 顺序 ， 并 允许 接收 方 通 
知 发 送 器 哪些 部 分 需要 重新 传输 。 

任何 基于 包 的 通信 系统 ， 重 新 传输 未 接收 到 的 数据 包 ， 或 者 接收 到 错误 的 数据 包 ， 都 需要 
一 种 方式 让 接收 方 通知 发 送 方 要 重新 发 送 数据 包 。 一 般 有 两 种 方法 ， 分 别 是 ACK (确认 ) 和 
NACK ( 负 应 答 ) ， 这 在 10. 2. 2 节 中 讨论 过 。 在 ACK 中 ， 接 收 方 明确 地 告诉 发 射 机 哪些 信息 包 
已 被 正确 地 使 用 。 然 后 ， 发 送 者 必须 重新 发 送 未 接收 到 的 数据 包 。 而 NACK 需要 接收 方 确切 地 
通知 发 送 方 要 发 送 哪些 数据 包 。TCP 使 用 ACK 机 制 (具体 来 说 , 它 是 一 个 基于 块 的 选择 性 
ACK 机 制 ) ， 这 涉及 接收 方 确认 收 到 的 每 个 数据 包 。 

当 一 个 包 丢 失 时 ， 将 会 产生 一 个 延迟 ， 在 接收 方 完成 一 组 数据 包 的 接收 并 向 发 送 器 发 送 一 
个 数据 块 的 确认 信息 后 ， 会 再 次 形成 一 个 延迟 。 确 认 信 息 发 送 后 ， 发 射 机 接收 并 解码 确认 信 
息 ， 然 后 对 丢失 的 数据 包 进 行 组 合 和 重新 发 送 ， 这 会 再 次 形成 一 个 延迟 。 所 有 这 一 切 都 意味 
着 ， 可 靠 性 的 代价 是 在 确保 包 被 交付 过 程 中 所 产生 的 时 间 延 迟 ， 以 及 重新 发 送 数据 包 时 所 涉及 
的 额外 网 络 流量 。 
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图 11-11 展示 了 TCP 报头 ， 包 括 源 端口 号 和 目的 端口 号 ， 以 及 序列 号 、ACK 信息 和 校 验 
和 。 而 其 他 字段 与 当前 对 协议 的 解释 无 关 。 


11.5.4 UDP 与 TCP 对 比 


由 于 UDP 和 TCP 的 特性 不 同 ， 因 此 两 个 最 
常用 的 传输 协议 在 许多 应 用 程序 中 有 不 同 的 用 
途 。 当 流 媒 体 直 播 视频 或 音频 时 ， 时 间 延 迟 和 
交通 效率 是 最 重要 的 ( 当然 比 几 毫 秒 的 数据 丢 
失 更 重要 ) ，UDP 往往 是 不 错 的 选择 。 这 种 情况 
还 包括 视频 会 议和 网 络 电话 。 当 每 个 数据 包 都 
很 重要 时 ， 准 确 接 收 数据 要 比 快 速 接收 数据 更 























重要 ， 那 么 TCP 就 会 被 采用 。 这 意味 着 , 像 财 ”图 11-11 一 个 TCP 包 的 内 部 结构 ; 报 文 是 
务 记 录 或 银行 事务 数据 等 很 可 能 会 使 用 TCP 包 32 位 宽 的 ， 顶 层 为 头 部 ， 底 层 
发 送 。 显示 了 数据 有 效 负载 
TCP UDP 

可 靠 最 大 努力 

端 到 端的 连接 无 连接 

花费 时 间 建 立 连接 

来 自 数据 流 的 数据 包 每 个 数据 包 是 独立 的 

数据 包 以 正确 的 顺序 传递 到 应 用 层 当 被 接收 时 ， 数 据 包 才 传递 到 应 用 层 ( 某 些 包 可 能 不 会 按 顺 序 传 递 ) 





通过 诸如 网 络 归档 系统 (NFS) 这 样 的 协议 来 进行 文件 传输 可 以 使 用 UDP (更 快 ) 或 TCP 
(更 可 靠 ), 但 是 TCP 是 默认 的 。 现 在 电子 邮件 通常 使 用 TCP， 大 多 数 网 络 流量 也 是 如 此 。 


11.6 其 他 信息 


11. 6.1 地 址 解析 协议 


正如 这 里 看 到 的 ， 当 一 个 应 用 程序 希望 与 男 一 个 应 用 程序 通信 时 ， 它 指定 了 一 个 到 操作 系 
统 的 人 地 址 (或 者 指定 了 一 个 名 称 ， 然 后 解析 为 11. 4. 6 节 中 描述 的 外 地址 )。 然 后 它 向 传输 
层 提供 数据 ， 而 传输 层 又 向 网 络 层 提供 TCP 或 UDP 数据 包 。 网 络 层 将 数据 封装 到 一 个 IP 数据 
报 中 ， 该 数据 报 指定 源 和 目标 卫 地 址 。 后 面 会 传递 到 数据 链 路 层 ， 再 然后 是 物理 层 。 假 设 是 
以 太 网 或 WiFi 连接 ，IP 数据 报 最 终 被 封装 到 以 太 网 或 WiFi 框架 中 ， 以 便 在 物理 介质 上 传输 。 
这 个 数据 帧 指定 了 接收 计算 机 的 物理 MAC 地 址 。 卫 数据 报 将 在 从 源 到 目的 地 的 多 条 链接 上 跳 
跃 。 如 图 11-8 所 示 ， 从 源 计算 机 A 到 目的 地 计算 机 B 的 路 由 进行 了 许多 次 跳跃 ， 每 一 跳 都 是 

一 个 单独 的 物理 链接 。 从 以 太 网 的 讨论 中 ， 可 以 知道 物理 的 跳跃 式 通 信使 用 的 是 MAC 地 址 而 
不 是 全 地 址 ， 那么 全 地 址 是 如 何 映 射 到 MAC 地 址 的 呢 ? 这 是 由 地 址 解析 协议 (ARP) 完 
成 的 。 

例如 ,计算 机 A 希望 与 计算 机 B 通信 ， 并 知道 它 的 中 地址。 计算 机 A 中 的 路 由 表 告 诉 它 
计算 机 了 是 否 在 同一 物理 网 络 上 ,或 者 它 是 否 是 外 部 的 。 如 果 是 在 同一 个 网 络 中 ,计算 机 A 将 
尝试 直接 与 它 进行 通信 。 如 果 是 外 部 的 ,计算机 A 会 首先 将 数据 包 发 送 到 网 关 路 由 器 。 

在 每 一 种 情况 下 ， 操 作 系 统 都 会 发 送 一 个 特殊 的 数据 包 (ARP 消息 ), 与 人 P 数据 报 在 
“相同 ”的 级 别 〈 也 就 是 说 ， 它 被 直接 打包 到 一 个 物理 框架 中 ) 。 这 个 ARP 消息 是 小 而 有 效 的 ， 
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并 且 指 定 了 以 下 内 容 : 被 请 求 MAC 地 址 的 他 地 址 、 发 送 者 的 IP 地 址 以 及 发 送 者 的 MAC 地 址 。 
所 请 求 的 卫 要 么 是 计算 机 B 的 〈 如 果 是 在 同一 个 网 络 上 ) ， 要 么 是 网 关 路 由 器 的 〈 如 果 计算 机 
B 是 外 部 的 ) 。 

ARP 消息 被 广播 到 本 地 网 络 上 的 所 有 主机 ， 除 了 具有 指定 IP 地 址 的 主机 之 外 ， 所 有 机 器 
都 将 忽略 它 ， 这 人 台 主 机 通过 发 回 物 理 MAC 地 址 来 进行 响应 。 

ARP 结果 (IP/ 物 理 地 址 映射 ) 会 被 缓存 〈 为 了 以 后 的 使 用 ) ， 以 避免 持续 的 ARP 查询 。 
时 间 限 制 的 机 制 使 得 在 需要 进行 新 的 ARP 查询 之 前 ， 信 息 的 生命 周期 有 限 。 当 计算 机 从 一 个 
网 络 转移 到 另 一 个 网 络 时 ， 这 种 时 间 限 制 是 有 必要 的 一 一 在 移动 计算 时 代 ， 这 是 一 个 越 来 越 普 
遍 的 现象 。 

ARP 完全 是 在 因特网 层 内 部 处 理 的 ， 它 的 任务 之 一 就 是 让 本 地 网 络 和 整个 因特网 保持 平稳 


运行 。 
11. 6.2 控制 信息 


不 同 主机 上 的 网 络 层 也 需要 相互 通信 来 请 求 和 报告 状态 ， 这 包括 关于 错误 条 件 和 网 络 拥塞 
等 问题 的 信息 ， 这 些 消息 使 用 Internet 控制 报 文 协议 (ICMP) 。 通 过 ICMP， 这 些 消 息 被 封装 在 
IP 数据 报 中 (这 意味 着 它们 像 UDP 数据 包 一 样 被 处 理 ) 。 

一 个 最 常见 的 控制 消息 方法 是 ICMP 回 显 ， 它 更 广为人知 的 名 字 是 “ping”。 它 是 一 条 从 一 
个 主机 发 送 到 另 一 个 主机 询问 “你 是 否 在 工作 ”的 消息 ， 对 于 诊断 网 络 连接 问题 以 及 监视 特 
定 主机 是 否 崩 溃 或 失败 是 非常 有 用 的 。 


11.7 无 线 连 通 性 


在 撰写 本 文 时 ， 越 来 越 多 的 人 通过 移动 设备 连接 到 因特网 ， 这 是 通过 无 线 连 接 实现 的 。 

无 线 技术 对 于 磐 和 人 式 系统 也 特别 重要 ， 因 为 这 些 系统 越 来 越 需 要 移动 连接 。 下 面 将 介绍 一 
些 与 无 线 通信 相关 的 主要 标准 一 一 除了 移动 通信 (CSM) 、 通 用 分 组 无 线 服 务 技术 (GPRS ) 、 
高 速 分 组 访问 ( HSPA) 等 基于 全 球 系统 的 移动 电话 和 数据 标准 ， 这 些 都 超出 了 本 书 的 
范围 。 





11.7.1 WiFi 


作为 最 著名 的 无 线 网 络 标准 ， 在 1999 年 年 底 ，WiFi 作为 [EEE 802. 11b 标准 化 工作 的 一 部 分 
得 到 了 IEEE 的 批准 。 在 那 之 后 不 久 ，IEEE 802. 11a 标准 被 批准 。 它 使 用 了 新 的 编码 模式 一 一 正 
交 频 分 复 用 (OFDM) ， 从 而 实现 更 高 的 数据 速率 和 无 线 信道 的 可 用 性 。 之 后 ， 正 EE 802. 11n 
被 引入 ， 利 用 多 个 输入 、 多 个 输出 〈MIMO) 技术 来 提高 峰值 数据 速率 ， 达 到 最 高 的 600Mbit/s。 
据说 ， 它 保证 了 最 小 为 100Mbits 的 吞吐 量 (这 是 在 减 去 协议 管理 后 实现 的 ， 协 议 管理 中 包括 
了 前 置 、 帧 间 间 隔 、 确 认 和 其 他 管理 开销 ) 。 

IEEE 802. 11a 通常 比 IEEE 802. 11b 快 得 多 ,在 5GHz 频率 中 ， 它 的 最 大 数据 速率 为 
54Mbit/s， 而 IEEE 802. 11b 在 2.45GHz 频率 下 速率 为 11Mbit/s。IEEE 802. 11n 的 速度 更 快 一 一 
总 是 假设 硬件 被 多 个 天 线 使 用 ， 并 且 环 境 支 持 多 路 传输 (拥挤 的 城市 地 区 和 办 公 室 倾向 于 这 样 
做 ,而 像 沙漠 社区 和 绿地 这 样 广阔 的 开放 空间 可 能 不 会 ) 。 

像 IEEE 802. 11g 这 样 的 标准 峰值 速率 听 上 去 很 厉害 ， 据 说 可 以 提供 54Mbit/s 的 数据 速率 ， 
然而 ， 其 可 用 带宽 的 近 一 半 是 被 传输 占用 的 。 换 句 话说， 用 户 可 能 不 能 体验 到 所 宣称 的 峰值 速 
度 ， 而 随 着 距离 的 增加 (也 就 是 信和 号 减弱 ) 或 干扰 的 增加 ， 峰 值 速度 要 低 得 多 。 一 个 WiFi 设 
备 的 最 大 覆盖 范围 是 50 ~ 100m。 
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在 过 去 的 十 年 中 ，IEEE 802. 11b、IEEE 802. 11a、IEEE 802. 11g 和 IEEE 802. 1ln 组 成 了 
IEEE 802. 11 的 子 标准 。 每 一 个 都 有 不 同 的 特点 和 优势 ， 应 用 在 不 同 的 领域 。 与 以 太 网 一 样 ， 
IEEE 802. 11 接口 有 一 个 内 置 的 硬件 MAC 地 址 。 这 可 以 用 来 识别 连接 到 网 络 的 设备 (理论 上 ， 
每 个 接口 的 属性 是 不 可 更 改 的 ) 。 

















标准 数据 速率 
IEEE 802 11b 11Mbit/s 
IEEE 802. 11g 54Mbit/s 
IEEE 802 11af 569Mbit/s 
IEEE 802 11ay 100Gbit/s 





11.7.2 WiMax 


IEEE 802. 16， 也 称 为 WiMAX (全 球 互 通 微波 访问 ) ， 是 一 种 无 线 宽带 技术 ， 支 持 多 点 
(PMP) 无 线 接 人 。 正 EE 802. 16 于 2002 年 公布 ， 作 为 一 种 基于 视 距 (LOS) 技术 的 固定 无 线 
标准 ， 它 的 目标 是 ， 提 供 高 速 主干 互联 服务 ， 特 别 是 在 那些 很 难 布设 物理 纤维 或 铀 基础 线路 的 
地 方 。 

IEEE 802. 16 最 初 是 针对 商业 用 户 的 , 在 10GHz ~ 66CHz 范围 内 的 授权 频段 上 运行 ， 通 道 
宽度 包括 20MHz、25MHz 或 者 28MHz (也 就 是 说 ， 用 户 必须 购买 他 们 想 要 使 用 的 频段 )。 它 需 
要 在 基站 和 用 户 之 间 进 行 视 距 传播 (LOS) 。 其 数据 速率 可 以 高 达 134Mbit/s, 但 仅 限于 在 基站 
周围 2~5km 的 范围 内 。 该 技术 还 有 其 他 几 种 变 体 ， 分别 具 有 不 同 的 操作 和 参数、 频带、 数据 速 
率 、 范 围 等 。 


11,7.3， 蓝牙 


蓝牙 ?技术 最 初 由 爱立信 公司 开发 ， 现 在 是 一 种 被 纳入 国际 标准 的 短 距 通信 技术 ， 则 在 取 
代 连 接 便携 式 设 备 或 固定 设备 的 电缆 ， 同 时 保持 较 高 的 安全 性 。 支 持 蓝牙 的 设备 可 以 通过 短 距 
离 的 点 对 点 模式 网 络 进行 无 线 连接 和 通信 。 这 种 网 络 称 为 微微 网 或 者 个 人 局 域 网 (PAN)。 

在 一 个 微微 网 中 的 每 台 设 备 使 用 基于 分 组 的 协议 可 以 同时 与 多 达 7 台 的 其 他 设备 进行 通 
信 ， 此 外 ， 每 台 设 备 还 可 以 同时 属于 几 个 微微 网 。 网 络 可 以 动态 建立 ， 就 像 蓝 牙 设 备 进入 和 离 
开 连 接 区 域 一 样 。2004 年 11 月 ， 蓝 牙 增强 数据 速率 (EDR)2.0 + 版 本 发 布 ， 其 数据 速率 为 
3Mbit/s， 但 版 本 5(2016 年 6 月 ) 将 速率 显著 地 增加 到 了 50Mbit/s。 版 本 5 还 包括 一 个 长 距离 
变量 ， 据 说 可 以 在 200m 以 上 的 距离 上 工作 。 

蓝牙 技术 在 2.4GHz ~2. 485GHz 范围 内 的 公共 ISM 频带 上 运行 ， 并 基于 传输 功率 (以 及 相 
应 的 范围 ) 分 为 几 类 : 

。 4 类 无 线 电 的 范围 为 50cm， 最 大 发 射 功 率 仅 为 500p.W 。 

。 3 类 无 线 电 的 范围 为 1m， 最 大 发 射 功率 为 1mW 。 

。 2 级 无 线 电 通 常 应 用 在 移动 设备 中 ， 其 范围 为 10m， 最 大 发 射 功率 为 2.5SmW。 

。 1 类 无 线 电 主要 用 于 工业 ， 范 围 为 100m， 最 大 的 发 射 功率 为 100mW。 

每 台 蓝 牙 设备 都 有 两 个 参数 ， 这 些 参数 涉及 蓝牙 通信 的 各 个 方面 。 第 一 个 是 在 制造 时 分 配 
给 每 个 蓝牙 无 线 电 的 48 位 地 址 ， 这 个 地 址 唯一 且 不 能 被 修改 。 第 二 个 参数 是 一 个 自由 运行 的 





加 ”蓝牙 的 名 字 来 源 于 传说 中 10 世纪 挪威 的 一 个 国王 ， 他 把 遥远 的 斯 堪 的 纳 维 亚 部 落 统一 成 一 个 王国 。 
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28 位 时 钟 ， 它 每 312. Shs 滴答 响 一 次 。 而 312. 5ps 相当 于 1600 或 800hops/s 无 线 电 停留 时 间 的 
一 半 。 


11.7.4 ZigBee 


被 正式 称 为 正 EE802. 15. 4 无 线 个 人 区 域 网 络 (PAN) 标准 的 ZigBee 在 2004 年 被 批准 ， 并 
主要 用 于 艇 入 式 应 用 程序 。ZigBee 实际 上 是 在 正 EE802. 15. 4 的 基础 上 构建 的 ， 并 可 采用 网 状 
网 络 。 它 是 一 种 实用 的 标准 ， 因 其 具有 安全 性 和 可 被 应 用 程序 控制 等 特性 。 在 ZigBee 下 ， 低 功 
耗 、 高 密度 的 网 络 节点 以 及 简易 和 低 成 本 的 网 络 得 以 实现 。 

在 原始 标准 中 指定 了 三 种 设备 类 型 ， 即 网 络 协调 器 、 全 功能 设备 (FFD ) 和 精 减 功能 设备 
(RFD)。 只 有 FFD 定义 了 完整 的 ZigBee 功能 ， 并 且 可 以 成 为 网 络 协调 器 。RFD 资源 有 限 ， 并 
且 不 允许 一 些 高 级 功能 (如 路 由 ) ， 因 为 它 是 一 个 低 成 本 的 端点 解决 方案 ， 每 个 ZigBee 网 络 都 
有 一 个 作为 网 络 协调 器 的 特定 FFD。 

协调 器 充当 管理 员 ， 并 负责 网 络 的 组 织 ， 趋 向 于 主 从 配置 。ZigBee 支持 多 达 65535 个 独立 
网 络 ， 其 中 包括 星 形 、 点 对 点 和 网 状 网 络 。 当 一 个 ZigBee 设备 被 断 电 时 (意味 着 所 有 的 电路 
都 与 32kHz 的 时 钟 断 开 了 ) ， 它 可 以 在 15ms 中 唤醒 并 传输 一 个 数据 包 ， 这 种 异常 低 的 延迟 可 以 
让 系统 在 一 个 消耗 极 低 电量 的 任务 周期 中 实现 唤醒 、 传 输 和 睡眠 。 

ZigBee 的 定义 通道 编号 为 0(868MHz) 、1 ~10(915MHz) 和 11 ~ 26(2.4GHz) 。 每 一 个 频段 
的 最 高 数据 速率 固定 在 250Kbit/s( 在 全 球 范围 内 的 928MHz ~2480MHz 频段 );，40Kbit/s( 在 美洲 
的 902MHz ~2405MHz 频段 )，20Kbit/s( 在 欧洲 的 868. 3MHz 频段 ) 。 与 往常 一 样 ， 所 报 的 速率 
是 理论 上 的 原始 数据 速率 ， 而 不 是 可 实现 的 速率 ， 由 于 受到 干扰 和 协议 管理 开销 的 影响 ， 这 一 
比率 将 会 降低 。ZigBee 是 一 个 被 打包 的 标准 ， 有 127 个 字 节 的 数据 包 ， 包 括 头 、16 位 校 验 和 以 
及 一 个 高 达 104 字 节 的 有 效 负载 。 无 线 电 的 最 大 输出 功率 通常 为 1mWW， 范 围 可 达 75m。 

ZigBee 支持 对 称 加 密 和 认证 ， 并 拥有 密 钥 处 理 和 帧 保护 机 制 。 在 连接 到 控制 CPU 时 ，Zig- 
Bee 的 协议 栈 大 小 大 约 需 要 32KiB ， 但 是 可 以 将 其 限制 到 一 个 为 4KiB 的 变 体 中 (这 是 一 个 规模 
非常 小 的 代码 ， 却 是 一 个 和 ZigBee 有 同样 能 力 的 标准 ) 。 


11.7.5 近 场 通信 


近 场 通信 (NFC) 是 当今 最 常用 的 无 线 网 络 标准 之 一 ， 提 供 专用 的 短程 连接 ， 是 大 多 数 智 
能 卡 接口 的 基础 技术 ， 包 括 公 共 交 通 卡 、“tap & go” 支 付 卡 、 电 子 护照 、Apple Pay 、Android 
Pay 等 。 最 初 的 NFC 技术 是 由 索尼 和 NXP 共同 开发 的 ， 它 为 电子 设备 提供 了 直观 、 简 单 、 安 全 
的 通信 ， 范 围 超 过 了 4cm。 它 在 2003 年 被 批准 为 ISO 标准 ， 现 在 有 非常 广泛 的 产业 应 用 。 

NFC 工作 在 13.56MHz， 数 据 速率 高 达 424Kbit/s, 与 一 些 非 接触 式 的 方法 兼容 ， 如 
ISO 14443A 和 ISO 14443B( 使 用 索尼 的 FeliCa 技术 ) 。 两 者 与 NFC 一 样 ， 都 在 13. 56MHz 频率 上 
运行 。 还 有 一 些 其 他 的 NFC 变种 可 能 不 是 完全 兼容 的 ， 它 们 工作 在 不 同 的 频率 范围 内 ， 但 数 
据 速 率 也 很 高 。 

一 个 NFC 通信 接口 可 以 以 不 同 的 模式 运行 ， 这 将 决定 一 台 设备 是 否 会 产生 自己 的 射频 
(RF) 场 ， 或 者 一 台 设备 是 否 能 从 另 一 台 设 备 产 生 的 射频 场 中 获取 能 量 。 如 果 设 备 产 生 了 自己 
的 场 ， 就 称 为 主动 设备 ， 和 否则 称 为 被 动 设备 。 


11.8 网 络 量 表 


网 络 跨 越 了 令 人 印象 深刻 的 范围 ， 从 几 毫 米 到 几 十 千 米 不 等 。 虽 然 有 一 系列 令 人 眼花 练 乱 
的 缩 略 词 来 概括 网 络 的 类 型 ， 但 以 下 是 最 常见 的 用 法 : 
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数据 速率 
BAN | 人 体 局 域 网 
PAN | 个 人 局 域 网 
CAN | 控制 器 局 域 网 城 域 网 





局 域 网 


因特网 是 WAN 的 一 种 类 型 ， 一些 参考 资料 认为 是 全 球 区 域 网 络 (GAN)， 但 这 通常 是 指 
在 非常 广 的 无 线 连接 。 列 表 中 不 包括 用 于 本 地 存储 的 存储 区 域 网 络 (SAN) 和 星际 网 络 (目前 
还 不 存在 ) 。 


11.9 小 结 


这 一 章 重点 讲解 了 网 络 , 介绍 了 五 层 全 协议 栈 ， 并 强调 它们 与 第 10 章 的 7 层 0SI 模型 的 
不 同 。 讨 论 了 封装 的 重要 概念 ， 然 后 在 该 基础 上 向 上 构建 。 从 物理 包 开 始 ， 研 究 了 传输 机 制 、 
会 话 、 寻 址 、 路 由 、 网 络 种 类 、 应 用 程序 协议 、 域 、 万 维 网 和 电子 邮件 。 以 线路 上 的 比特 流 为 
基础 ， 构 建 了 全 球 因特网 、 域 名 服务 器 和 典型 应 用 程序 。 最 后 以 通用 无 线 网 络 标准 结束 了 这 一 
章 一 一 在 数据 计算 的 世界 中 包含 了 比 教材 中 更 多 的 标准 。 这 些 标准 可 以 是 实际 的 ， 甚 至 也 可 以 
是 形式 化 的 。 


思考 题 

11.1 列举 因特网 广泛 采用 和 流行 的 三 个 网 络 特征 。 

11.2 ” 当 数 据 通过 TCP/IP 从 一 个 应 用 程序 发 送 到 另 一 个 应 用 程序 时 ， 传 输 层 会 将 数据 封装 到 什么 地 方 ? 

11.3 当 问 题 11. 2 中 的 传输 层 的 信息 被 下 面 的 层 封装 起 来 时 ， 会 被 封装 在 什么 地 方 ? 

11.4 接收 网 络 信息 时 ， 哪 层 将 接收 到 以 太 网 帧 ， 并 把 它 作为 输入 ? 

11.5 在 一 个 操作 系统 中 ， 通 常 使 用 哪 三 层 IP 协议 栈 ? 

11.6 在 封装 一 个 以 太 网 帧 时 ， 哪 四 类 信息 会 添加 到 有 效 负载 数据 中 ? 

11.7 列 出 组 成 TCP 报头 的 三 部 分 信息 。 

11.8 在 20 世纪 90 年 代 早期 剑桥 大 学 计算 机 科学 系 创建 了 第 一 个 网 络 摄 像 头 ， 专 门 用 来 监控 他 们 的 
咖啡 壶 的 状态 ( 比如 它 是 满 的 还 是 空 的 ) 。 如 果 网 络 摄像 头 被 一 个 简单 的 传感器 取代 ， 它 每 毫秒 
测量 咖啡 过 的 重量 ， 并 将 重量 值 传输 到 一 个 网 络 服务 器 上 ， 以 便 在 网 页 上 显示 ， 那 么 UDP 和 TCP 
中 哪个 会 成 为 首选 协议 ? 

11.9 在 任何 情况 下 ， 两 个 具有 相同 IP 地 址 的 计算 机 都 应 该 连接 到 同一 个 网 络 吗 ? 也 就 是 说 ， 它 们 彼此 
可 见 吗 ? 

11.10 在 扫描 网 络 流量 时 ,会 发 现 一 个 内 容 为 101. 2. 1. 155. in-addr. arpa 的 包 ， 请 问 哪 种 类 型 的 计算 机 
可 能 会 响应 这 个 数据 包 ， 在 响应 中 会 提供 什么 信息 ? 

11.11 当 一 个 应 用 程序 将 IP 数据 传输 到 一 个 给 定 的 端口 时 ， 数 据 包 是 否 会 总 是 从 远程 服务 器 上 的 固定 
端口 发 送 ， 还 是 从 一 个 不 同 的 端口 发 送 ? 

11. 12 ”如 果 www kent ac. uk 网 站 的 卫 地 址 是 129. 12. 10. 249， 那 么 拥有 129. 67. 242. 155 这 个 全 地 址 的 
大 学 ， 会 位 于 加 拿 大 、 新 加 坡 还 是 英国 呢 ? 

11.13 在 网 络 诊断 学 中 ，ICMP 的 一 个 通常 被 称 为 “ping” 的 典型 功能 是 什么 ? 

11.14 按 范围 从 小 到 大 的 顺序 排列 以 下 类 型 的 网 络 : PAN、CAN、WLAN、MAN、GAN。 
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未 来 





这 一 章节 相 比 于 前 几 童 更 多 地 关注 计算 机 及 其 架构 的 后 续 发 展 ， 计 算 机 的 未 来 很 可 能 是 骨 
入 式 的 。 然 而 ， 随 着 摩尔 定律 所 设 定 的 性 能 目标 的 不 断 增 长 ， 制 造 商 们 已 经 转向 并 行 计算 。 这 
不 仅 包括 像 谷歌 和 亚马逊 这 样 的 大 型 服务 器 运营 公司 ， 还 包括 并 行 计算 的 移动 便携 设备 商 。 转 
向 并 行 的 趋势 可 能 会 继续 下 去 ， 所 以 我 们 正在 讨论 的 也 许 是 戏 入 式 并 行 的 未 来 。 其 他 新 兴 的 话 
题 ， 如 智能 环境 和 普 适 计算 〈 我 们 身边 的 计算 机 一 起 合作 提供 服务 ) 、 量 子 计算 机 、 生 物 计 算 
机 等 都 值得 去 思考 。 

在 试图 描绘 与 主流 计算 不 同 的 未 来 时 ， 本 章 的 某 些 内 容 在 之 前 已 经 介绍 了 ， 这 里 再 次 提 
及 ， 是 为 了 表明 它 在 未 来 日 益 增 长 的 重要 性 和 不 断 扩 大 的 影响 。 未 来 的 一 些 计算 技术 是 那些 之 
前 曾经 被 尝试 且 被 遗忘 的 技术 ， 但 是 现在 这 些 技术 正在 被 重新 审视 。 其 他 计算 机 技术 ， 比 如 量 
子 计算 ， 和 出 现在 计算 机 结构 教科 书 中 的 量子 计算 机 相 比 ， 在 科幻 小 说 中 出 现 的 听 上 去 更 为 神 
奇 ， 实际 上 ， 人 们 将 会 进一步 研究 科幻 小 说 的 内 容 ， 在 许多 情况 下 ， 科 幻 小 说 中 的 内 容 在 未 来 
将 变 成 现实 。 : 

无 论 未 来 如 何 ， 计 算 很 可 能 仍 将 是 一 个 有 着 很 大 进化 空间 的 学 科 ， 而 在 过 去 几 十 年 的 进化 
中 ， 即 使 偶尔 一 个 小 小 的 进步 也 会 使 其 活跃 起 来 。 尽 管 当今 的 大 多 数 计算 机 ( 比如 存在 于 无 数 日 
常设 备 中 的 微小 的 嵌入 式 系统 ) 看 起 来 并 不 像 21 世纪 初 的 笔记 本 电脑 、20 世纪 80 年 代 的 米黄 色 
盒子 〈beige box) ， 或 者 20 世纪 70 年 代 的 大 型 机 ， 即 使 已 经 高 度 小 型 化 了 ,但 它们 的 大 部 分 CPU 
原理 都 是 非常 相似 的 。 同 样 ， 当 今 最 大 和 最 小 的 计算 机 系统 所 选择 的 操作 系统 都 是 基于 UNIX 的 。 
较 新 的 系统 可 能 会 是 高 度 先进 的 、 流 线 型 的 、 安 全 的 ， 而 且 性 能 非常 强 , 但 是 如 果 观 察 Android 
智能 手机 的 “底层 "将 会 显示 出 与 20 世纪 70 年 代 的 AT&T UNIX 系统 几乎 相同 的 目录 结构 ， 和 
20 世纪 80 年 代 IBM 的 AIX 系统 相似 的 系统 文件 ， 以 及 和 20 世纪 90 年 代 的 原始 Linux 一 样 的 设备 
驱动 界面 。 与 此 同时 , 今天 的 连接 (主要 是 无 线 的 连接 ) 可 能 与 过 去 的 有 线 连接 和 拨号 连接 不 太 
一 样 ， 但 它们 依赖 于 相同 的 标准 。 如 果 有 一 位 来 自 20 世纪 90 年 代 的 计算 机 工程 师 检查 那些 通过 
现代 WiFi 网 络 发 送 的 耳 数据 报 甚至 数据 帧 ， 将 看 到 他 非常 熟悉 的 通信 量 。 

这 并 不 是 说 今天 的 技术 已 经 过 时 了 ， 简 单 来 说 ， 随 着 技术 的 进步 ， 开 发 人 员 保留 了 最 好 的 
技术 ， 并 且 替 换 了 那些 可 以 改进 的 技术 。 前 文 所 提 到 的 技术 都 是 非常 优秀 的 。 这 也 保证 了 本 书 
所 述 的 对 计算 机 系统 状态 的 理解 在 未 来 几 年 也 会 具有 重大 意义 。 


12.1 单 比 特 结构 


在 4.2.2 节 中 ,我 们 设计 了 一 个 由 单独 的 1 比特 的 ALU。 这 种 方法 很 常见 (例如 ，ARM 
内 核 就 曾 使 用 过 ) ， 并 且 经 常 被 称 作 位 切片 。 实 际 上 ， 因 为 ALU 的 总 线 是 并 行 的 ， 所 以 每 一 个 
比特 都 是 独立 且 并 行 处 理 的 。 此 外 ，ALU 可 以 以 串 行 方式 接受 位 信息 并 处 理 它们 ， 然 后 串 行 地 
输出 结果 。 实 际 上 ， 串 行 CPU 已 经 被 开发 出 来 多 年 了 ， 它 们 使 用 比特 - 串 行 结构 进行 所 有 处 理 。 

串 行 方式 的 处 理 意味 着 更 高 的 芯片 时 钟 速度 ， 但 是 在 芯片 上 的 总 线 连接 更 少 ， 所 以 接口 硬 
件 被 简化 了 。 处 理 硬 件 也 更 简单 ， 因 为 它 每 次 通常 只 需要 处 理 一 个 比特 。 然 而 ，CPU 内 部 的 其 
余部 分 并 不 总 是 被 简化 的 ， 因 为 需要 一 个 串 行 控制 器 来 发 送 CPU 周围 的 所 有 串 行 操作 数 ， 这 
意味 着 在 实际 操作 中 需要 一 些 复杂 的 计时 电路 。 然 而 ， 位 串 行 方法 有 一 个 很 大 的 优势 ， 那 就 是 
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相同 的 CPU 和 ALU 硬件 可 以 通过 改变 操作 的 时 长 来 处 理 不 同 的 字 长 。 接 下 来 将 看 到 一 个 例子 。 

对 于 某 些 串 行 操作 ， 当 串 行 数据 被 输入 ALU 中 并 进行 计算 时 ， 可 以 按照 以 一 比特 接 一 比 
特 的 方式 进行 计算 处 理 。 然 而 ， 有 些 操作 要 求 在 处 理 开 始 之 前 将 所 有 位 元 输入 〈 显 然 速度 较 慢 ， 
并 且 需 要 存储 整个 字 ) 。 因 此 ， 仔 细 设 计 位 串 行 计 算 方法 以 最 大 限度 地 提高 效率 是 很 重要 的 。 


12. 1.1 比特 - 串 行 加 法 


假设 一 个 例子 ， 考 虑 添加 两 个 比特 - 串 数字 。 这 就 是 先 把 最 低 加 权 位 〈LSB) 赋 给 加 法 器 
并 且 按 位 添加 ， 其 中 来 自 特定 加 法 的 进位 被 反馈 以 备 后 续 添 加 。 

如 图 12-1 中 所 示 ， 其 中 有 两 个 16 位 字 中 的 4 位 已 经 被 添加 ， 因 此 已 经 产生 了 一 个 4 位 结 
果 。 这 个 加 法 器 中 的 逻辑 不 需要 很 复杂 ， 实 际 上 它 可 能 类 似 于 图 12-2 中 的 框图 。 


1001 1100 0011 0011 加 法 
0001 0100 0110 Wa Do0 
We 
进位 被 反馈 


图 12-1 这 是 两 个 二 进 制 数字 串 行 流 的 例子 ， 按 位 进行 逐 位 加 法 ， 
每 次 按 位 加 法 的 进位 是 它 低 一 位 计算 所 反馈 的 进位 输出 
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图 12-2 ”位 串 行 加 法 器 单元 所 需 的 全 加 器 电路 


在 图 12-2 中 ， 这 两 比特 数据 流 被 传递 到 A 和 B 中 ， 它 们 与 进位 反馈 相 加 得 到 一 个 总 和 和 
一 个 进位 。LSB 控制 信号 用 于 抑制 任何 反馈 ， 因 此 不 会 有 进位 放 入 最 低 加 权 位 的 位 置 (正如 预 
期 的 那样 )。 锁 存 器 将 加 法 器 的 输出 延迟 与 位 时 钟 同步 ， 并 延迟 进位 以 准备 好 添加 下 一 位 数据 。 

利用 这 种 方案 ， 只 要 LSB 控制 信号 阻止 任何 来 自从 一 个 和 到 下 一 个 和 之 间 的 进位 ， 就 没 必 
要 在 一 系列 比特 输入 和 下 一 个 比特 输入 之 间 留 下 间隙 。 这 种 方案 的 巧妙 之 处 在 于 ， 只 要 LSB 控 
制 信号 的 时 序 在 输入 字 之 间 划 分 任何 字 长 的 数据 都 可 以 被 相同 的 硬件 添加 ， 如 图 12-3 所 示 。 


最 低 加 权 位 | | 让 


最 低 加 权 位 | | | | 
> PEO 


图 12-3 ”比特 位 时 钟 的 定时 波形 ，LSB 位 置 标 志和 数据 字 
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实现 一 个 累加 器 也 是 同样 简单 的 ， 这 和 留 给 读者 自己 练习 。 


12. 1.2 比特 - 串 行 减法 

研究 一 下 12. 1. 1 节 的 加 法 器 ， 可 以 看 到 任何 进位 都 是 从 开头 自然 传递 到 结尾 。 既 然 减法 
涉及 借 位 而 不 是 进位 ， 那 么 仍然 可 能 是 一 个 类 似 的 过 程 。 一 个 简单 的 技巧 可 以 使 这 个 过 程 变 得 
更 容易 。 

从 第 2 章 中 可 以 了 解 到 ， 改 变 两 个 补 码 的 符号 相对 容易 (尽管 不 及 像 改 变 一 个 符号 量 级 的 
数字 那么 容易 ) 。 为 了 改变 符号 ， 有 必要 将 所 有 字符 1 换 为 字符 0， 将 字符 0 换 为 字符 1， 然 后 
在 最 未 位 上 加 上 1。 然 后 使 用 B -A 等 价 于 B+ ( -A) 的 原理 ， 只 需要 用 操作 数 的 补 码 来 执行 
加 法 。 

反 转 比特 - 串 输 入 数据 中 的 每 一 位 和 在 输入 信号 上 放置 非 门 一 样 简单 。 将 1 添加 到 最 低 有 
效 位 也 是 非常 简单 的 ， 只 需要 第 一 个 进位 被 读 取 而 不 是 被 清除 ( 即 LSB 控制 信号 需要 生成 进 
位 功能 而 不 是 清除 功能 ) 。 执 行 这 种 比特 - 串 行 减法 所 需 的 逻辑 如 图 12-4 所 示 。 把 它 和 图 12-2 
中 的 硬件 相 比较 ， 可 以 非常 清楚 地 得 知 ， 创 建 一 个 使 用 外 部 控制 信号 在 SUB 和 AND 功能 之 间 
切换 的 比特 - 串 算术 逮 辑 单元 是 非常 容易 的 。 


LSB 控 制 信号 





图 12-4 这 是 位 串 行 加 法 器 单元 所 需 的 减法 电路 。 它 与 图 12-2 的 加 法 器 之 间 的 主要 
区 别 在 于 输入 A 处 插入 的 反 相 器 〈 非 门 ) ， 以 及 底部 LSB 控制 门 的 变化 


12. 1.3 比特 - 串 行 逻辑 和 处 理 


考虑 到 可 以 使 用 主要 由 单个 全 加 器 和 锁 存 器 组 成 的 硬件 来 增加 或 减少 任意 长 度 的 字 
(word) ， 因 此 比特 - 串 行 逻辑 的 硬件 效率 非常 高 。 它 也 可 以 高 速 计时 (因为 时 钟 锁 存 器 之 间 的 
逻辑 传播 延迟 很 小 ) ， 但 比特 - 串 行 逻辑 的 缺点 是 ， 尽 管 它 的 时 钟 速度 很 快 ， 对 长 度 为 n 位 的 
每 个 算术 运算 都 需要 用 (n+1) 个 时 钟 周期 来 完成 。 

由 于 位 串 行 逻辑 硬件 允许 很 多 处 理 流 同时 发 生 ， 它 在 许多 FPCA (现场 可 编程 门 阵列 ) 逻 
辑 设计 中 找到 了 归宿 。 它 还 与 FPGA 的 硬件 架构 相 匹 配 ， 其 中 逻辑 可 以 在 器 件 的 单个 单元 中 实 
现 。 这 样 的 单元 可 以 被 称 为 逻辑 元 件 (LE) 、 逻 辑 单元 (LC) 或 来 自 不 同 制造 商 的 其 他 类 似 
名 称 ， 但 重要 的 是 每 个 单元 包含 具有 作为 全 加 器 执行 的 能 力 的 查找 表 ， 能 与 一 个 触发 器 〈 可 以 
实现 锁 存 ) 结合 ， 或 者 有 时 同 两 个 结合 。 这 些 单元 之 间 的 互 连 是 较 慢 的 ， 连 接 速度 与 单元 之 间 
的 地 理 距 离 成 反比 。 

一 般 来 说 ， 对 于 并 行 计 算 (例如 ,实现 ALU 的 “正常 ”方法 ) ， 随 着 所 输入 的 数据 的 宽度 
增加 ， 在 FPCA 中 的 互 连 延 迟 基本 上 会 变 得 接近 瘫痪 的 程度 。 

这 与 进位 传递 问题 加 在 一 起 ， 就 意味 着 一 旦 将 256 位 以 上 的 数字 相 加 ， 就 很 难以 很 高 的 计 
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算 速 度 去 处 理 数据 。 此 外 ， 当 前 这 一 代 的 中 型 设备 甚至 可 能 都 不 包含 足够 的 路 由 互 连 来 实现 这 
种 加 法 功能 (顺便 说 一 下 ， 这 不 是 一 个 模糊 的 要 求 ， 而 是 许多 加 密 算法 中 的 常见 功能 ) 。 在 这 
种 情况 下 ， 能 够 执行 比特 - 串 行 逻辑 的 单个 逻辑 元 件 变 得 十 分 有 吸引 力 。 


12.2 多 并 行 机 器 

随 着 越 来 越 小 的 CPU 或 内 核 的 使 用 变 得 可 实现 ， 以 及 通过 诸如 以 太 网 之 类 的 方法 能 实现 
简单 方便 的 互 连 ， 现 在 把 计算 机 集中 在 一 起 以 便 使 它们 合作 变 得 更 加 容易 。 但 为 这 样 的 系统 编 
写 高 效 的 软件 是 另外 的 问题 ， 从 硬件 的 角度 来 看 ， 简 单 地 将 几 个 现成 的 PC 用 快速 连接 方式 连 
接 在 一 起 就 能 构成 一 个 集群 计算 机 。 

在 5.8 节 中 已 经 概述 了 可 以 在 计算 机 中 找到 的 许多 层次 的 并 行 性 ， 并 且 谈 到 了 松散 和 紧 斐 
合 系统 之 间 的 区 别 。 在 这 里 ， 将 集中 讨论 计算 机 的 最 高 层次 的 并 行 性 ， 即 机 器 并 行 性 。 

对 于 有 着 许多 松散 耦合 的 任务 〈 例 如 执行 困难 和 复杂 的 代码 函数 组 ， 函 数组 彼此 之 间 不 能 
以 相对 低 的 带宽 进行 通信 ) 的 计算 问题 ， 将 每 个 函数 放 到 单独 的 任务 中 并 行 执行 可 以 加 快 完 成 
时 间 。 由 于 CPU 之 间 的 通信 瓶颈 ， 具 有 彼此 之 间 非 常 频繁 或 高 带宽 通信 的 任务 的 系统 可 能 无 
法 在 并 行 执行 时 运行 得 更 快 。 但 是 ， 在 过 去 十 年 ， 充 足 的 可 以 并 行 化 的 工作 推动 了 并 行 处 理 的 
进程 。 

在 大 规模 并 行 处 理 系 统 中 ， 任 务 通常 在 物理 上 独立 的 CPU 上 执行 ， 这 就 是 将 来 所 要 考虑 
的 : 一 组 独立 的 CPU 或 PC 能 组 成 机 架 式 或 刀片 式 服务 器 。 这 个 论点 甚至 可 以 扩展 到 集群 ,但 
这 超出 了 本 书 所 探讨 的 范围 ， 相 关内 容 可 参考 专门 介绍 高 级 并 行 和 分 布 式 计算 的 教科 书 。 


12. 2. 1 小 型 CPU 集群 


十 年 前 ， 在 一 句 话 中 同时 提 到 “并 行 计算 ” 和 “嵌入 式 系统 ”几乎 是 不 可 想象 的 。 并 行 
系统 是 大 型 集群 或 者 大 型 机 (“重金 属 ”)， 嵌入 式 系 统 都 是 由 单一 的 ， 通常 是 简单 的 、 低 功 耗 
的 CPU 组 成 。 然 而 ， 现 在 的 情况 却 截然 不 同 。 几 乎 所 有 的 移动 计算 设备 ， 无 论 是 智能 手机 、 
平板 电脑 还 是 可 穿戴 设备 ， 其 主 CPU 都 采用 多 核 架 构 。 许 多 此 类 系统 都 使 用 多 核 CPU 并 将 一 
组 更 专业 的 CPU 核心 用 于 诸如 GPS 导航 和 电源 管理 的 其 他 任务 。 

尽管 移动 设备 的 内 部 计算 能 力 有 所 提高 ， 但 在 第 5 章 中 已 经 了 解 到 ， 移 动 设备 减轻 复杂 处 
理 能 力 的 趋势 越 来 越 明显 。 减 轻 自 身 复 杂 处 理 意 味 着 将 复杂 的 任务 发 送 到 云端 或 大 型 服务 器 ， 
而 这 些 服务 器 本 身 就 是 大 型 并 行 处 理 集群 。 

无 线 网 络 连接 可 用 性 的 逐渐 增长 ， 带 宽 和 连接 速度 的 提高 ， 意 味 着 移动 设备 自身 硬件 要 求 
的 降低 。 但 在 延迟 〈 即 ， 对 某 事 物 的 即时 响应 ) 非常 大 的 地 方 ， 或 者 在 连接 性 差 的 位 置 对 于 
自身 硬件 的 要 求 并 没有 降低 。 

第 二 种 情况 是 作者 在 2002 年 初 面临 的 一 个 问题 ， 当 时 要 求 为 新 研发 的 卫星 设计 一 种 计算 
机 。 这 种 计算 机 需要 有 极 高 的 自动 化 水 平 ， 能 连接 上 每 天 只 能 可 靠 地 运行 两 次 的 无 线 链 路 〈 一 
次 链 路 传输 速度 非常 慢 ， 只 有 几 万 比特 每 秒 ， 另 一 次 链 路 传输 速度 更 快 ， 但 一 次 只 能 使 用 几 十 
秒 ， 同 时 它 会 耗 尽 电量 ) ， 这 意味 着 需要 强大 的 机 载 处 理 能 力 。 但 是 ， 处 理 能 力 强大 的 CPU 往 
往 在 物理 空间 上 是 不 可 实现 的 ， 因 此 唯一 的 选择 是 构建 一 个 更 简单 的 CPU 集群 。 这 种 设计 是 
由 在 所 请 的 贝 奥 武夫 集群 配置 下 运行 Linux 系统 的 ARM 处 理 器 所 组 成 的 并 行 集群 ， 并 于 2009 
年 在 X-Sat 卫星 上 运行 ， 成 为 太空 中 第 一 台 并 行 集群 计算 机 。 

并 行 处 理 单元 

并 行 处 理 单元 (PPU) 被 设计 成 能 在 微 卫 星 ( 即 重量 在 10 ~ 100kg 之 间 的 卫星 ) 中 提供 高 
可 靠 性 的 计算 机 服务 。 该 卫星 被 设计 成 能 从 500km 高 的 轨道 中 捕捉 地 面 图 像 ， 在 卫星 上 处 理 这 
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些 图 像 ， 然 后 将 它们 传送 到 地 面 中 心 。 

从 7. 10 节 可 以 了 解 到 ， 太 空 环境 中 有 宇宙 辐射 ， 能 使 得 电子 设备 失效 ， 因 此 大 多 数 卫 星 
设计 人 员 选 择 使 用 能 抗 辐射 或 耐 辐射 的 CPU 来 进行 设计 。 遗 憾 的 是 ， 由 于 设计 涉及 制造 、 测 
试 和 质量 鉴定 过 程 ， 这 些 抗 辐射 设备 往往 非常 昂贵 ， 难 以 采购 ， 根 本 无 法 全 功效 工作 ， 甚 至 十 
分 慢 。 大 多 数 微 卫星 包含 8086 时 代 的 处 理 器 ， 它 们 很 少 有 超过 10 MIPS 的 运行 速度 。 即 便 如 
此 ,卫星 计算 机 设计 人 员 也 是 一 群 保 守 派 (虽然 有 充分 的 理由 - 由 于 机 载 计算 机 设计 不 佳 ， 很 
少 有 人 愿意 浪费 一 百 万 美元 一 次 的 发 射 去 测试 星 载 计算 机 ) ， 并 且 为 了 能 以 制造 商 设 定 的 最 大 
时 钟 速度 的 一 半 去 运行 ， 他 们 通常 会 降低 处 理 器 的 性 能 。 

因为 这 种 微弱 能 力 的 机 载 计算 机 存在 ， 所 以 卫星 不 会 自己 进行 处 理 信 息 。 在 大 多 数 情况 
下 ， 卫 星 只 需 捕 获 信息 ， 然 后 将 信息 下 载 到 地 面 计算 机 进行 处 理 。 这 里 不 讨论 这 些 方法 的 优 缺 
点 ,关注 的 是 虽然 是 小 规模 但 是 持续 增长 的 使 用 商用 现货 (COTS) CPU 来 提高 卫星 机 载 计 算 
机 能 力 的 趋势 。 

PPU 是 按照 Intel Strong ARM 设备 设计 的 ， 通 过 四 个 耐 辐 射 现 场 可 编程 门 阵 列 (FPCA) 进 
行 判决 。 在 先前 的 设计 稿 中 ， 最 初 的 设计 只 使 用 了 两 个 FFGA, 但 是 在 最 终 的 结构 中 ,使 用 了 
四 个 FPGA 设备 进行 判决 。 由 于 任何 COTS 设备 都 不 太 可 能 在 空间 中 存活 很 长 时 间 ， 因 此 PPU 
中 提供 了 20 个 独立 的 CPU， 旨 在 适应 CPU 随 预 期 时 间 的 推移 而 逐渐 失效 的 问题 。 根 据 已 公布 
的 辐射 容 限 信息 ，PPU 的 设计 使 得 它 在 启动 初期 将 有 20 个 正常 工作 的 CPU， 其 寿命 为 3 年 ， 
在 其 可 用 年 限 末 尾 ， 大 多 数 CPU 将 会 失效 ,但 PPU 将 仍然 有 足够 的 CPU 运行 以 维持 它 的 任务 
继续 执行 。PPU 最 重要 的 一 个 特征 就 在 于 它 通过 给 20 个 CPU 中 的 每 个 CPU 提供 单独 的 电源 来 
保证 即使 单个 设备 失效 也 不 会 损害 系统 其 他 部 分 。 

如 果 有 必要 ， 通 过 使 用 这 些 开关 控制 ， 故 障 设备 甚至 可 以 被 远程 操控 断 电 。 在 图 12-5 中 
PPU 以 框图 形式 显示 。 如 图 所 示 ， 四 个 FFGA( Actel AX1000 器 件 ) 各 自 容纳 五 个 处 理 节点 
(PN) 。 每 个 PN 通过 专用 并 行 总 线 连接 到 FFGA， 稍 后 将 对 此 进行 说 明 。 在 FPGA 中 ， 我 发 明 
了 一 种 通信 系统 ， 称 为 “时 际 全 背 板 ”(TGB)。TGB 总 线 像 令 牌 环 系统 一 样 运行 ， 在 节点 地 
址 之 间 发 送 消息 和 数据 。 每 个 PN 都 有 自己 的 专用 TGB 节点 (和 地 址 ) 作为 外 部 连接 ， 内 部 可 
配置 处 理 模块 (PM) 和 状态 寄存 器 (SR) 。 外 部 连接 是 固态 记录 器 、 大 型 闪存 存储 器 、 控 制 
器 局 域 网 (CAN) 总 线 以 及 C515C 判决 控制 器 。CAN 总 线 从 卫星 主 计算 机 向 PPU 传送 控制 信 
息 。 其 中 两 个 FPGA 使 用 LVDS ( 详 见 6.3.2 节 ) 连接 在 一 起 ，TGB 正常 通过 LVDS，LVDS 也 
用 于 与 固态 记录 器 的 快速 数据 连接 (也 用 于 相机 模块 和 卫星 上 的 高 速 无 线 电 数据 下 载 模块 ) 。 

PN 的 操作 代码 存储 在 闪存 中 ， 并 且 三 个 相同 的 代码 副本 以 三 重 宛 余 方式 连接 到 每 个 FPCA 
( 详 见 7. 10 节 ) 。 整 个 设计 展示 了 “通过 宛 余 实现 可 靠 性 ”的 概念 ， 从 上 至 下 建立 了 可 靠 性 。 
下 面谈 一 下 这 些 可 靠 性 的 特征 : 

。 大 量 的 PN 一 一 由 于 具有 如 此 多 的 PN， 即使 少数 PN 发 生 故 障 也 是 可 以 承受 的 ， 系 统 仍 

将 继续 工作 。 

。 独立 的 总 线 一 一 如 果 所 有 的 PN 共用 一 个 公共 总 线 ， 则 宇宙 射线 所 引起 的 错误 很 可 能 导 
致 其 中 一 个 地 址 或 数据 总 线 驱动 器 电路 发 生 故 障 ， 使 其 卡 在 高 电 平 或 低 电 平 。 这 对 共 
享 公共 总 线 的 影响 是 会 阻碍 任何 连接 在 公共 总 线 上 的 设备 的 正常 通信 。 因 此 ， 在 每 个 
PN 和 FPGA 之 间 都 会 设置 单独 的 并 行 总 线 。 当 一 个 PN“ 死 掉 ” 时 ， 不 会 影响 其 他 PN。 

。 分 布 式 存 储 器 一 一 类 似 地 ， 共 享 存储 器 发 生 故 障 会 影响 它 所 连接 的 所 有 处 理 器 ， 因 此 
除了 固态 记录 咒 之 外 ， 该 系统 不 会 使 用 任何 共享 存储 器。 

。 三 重 元 余 操作 代码 一 一 每 个 FPGA 都 有 三 个 闪存 块 ， 这 允许 FPGA 对 操作 代码 的 每 个 字 

执行 按 位 多 数 表决 。 
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图 12-5 PPU 的 框图 ， 显 示 了 20 个 PN， 每 个 处 理 节 点 包含 一 个 SA1110 CPU 和 64MB 本 地 存储 器 ,使 用 
专用 总 线 连 接 到 本 地 Actel AX1000 FPGA。 四 个 FPGA 中 每 个 主管 5 个 PN， 且 连 接 到 一 个 固态 
记录 器 和 一 个 控制 器 局 域 网 (CAN) 总 线 。FPGA 使 用 双向 LVDS 连接 进行 互 连 。 时 际 全 局 背 
板 总 线 在 PN、 外 部 链 路 、 内 部 PM 和 内 部 SR 之 间 传 送 数 据 


。 FPGA 之 间 有 两 个 链 路 一 一 如 果 其 中 一 个 双向 LVDS 链 路 发 生 故 障 ， 另 一 个 仍然 可 以 
运行 。 

。 固态 记录 器 之 间 有 多 个 链 路 一 一 类 似 地 ， 如 果 一 个 LVDS 链 路 出 现 故 障 ， 另 一 个 仍然 
可 以 运行 。 

。 多 个 CAN 总 线 链 路 一 一 每 个 FPGA 的 两 个 链 路 会 在 一 个 链 路 发 生 故 障 时 ， 由 另 一 
次 提供 宛 余 。 

。 TCB 总 线 节 点 些 节点 是 非常 简单 的 容错 单元 ， 可 用 于 跟踪 检测 它们 所 连接 的 设 
ote hes 这 些 设备 是 否 出 现 故障 ， 都 不 会 阻止 TGB 上 的 传输 通信 。 

。 TCB 数据 包 一 一 数据 包 在 源 : 目标 地 址 和 数据 字段 中 受 奇偶 校 验 保护 。 

。 TCB 总 线 电 路 一 一 通常 TGB 周围 循环 有 32 个 节点 ， 在 FPGA 之 间 平 均 分 配 。 在 单个 节 
点 发 生 故 障 的 情况 下 ， 总 线 不 会 受到 影响 ; 然而 ,在 FPGA 之 间断 开 连 接 的 情况 下 ， 
每 侧 的 TGB 总 线 会 检测 到 断 开 ， 并 “修复 ”缺口 ， 在 各 自 连接 的 区 域内 不 受 影响 ， 继 
续 运 行 。 

。 四 个 FPGA 一 一 如 果菜 一 个 FGPA 出 现 故 障 ，PPU 仍然 会 运行 。 由 于 耐 辐射 FPGA 在 存 
储 空间 方面 比 SA1110 处 理 器 更 加 可 靠 ， 因 此 在 设计 寿命 期 内 ， 确 保 正 常 运行 所 需要 的 
FGPA 数量 会 更 少 。 

虽然 PPU 具有 容错 能 力 ， 但 它 也 是 传统 意义 上 的 并 行 处 理 器 。 每 个 PN 可 以 独立 运行 ， 并 
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500] 且 可 以 与 其 周围 的 节点 进行 通信 (通过 TGB)。 计 算 机 内 部 有 一 种 机 制 允 许 将 物理 节点 号 (0， 
1，2， 最 多 到 31) 重新 映射 到 各 种 类 型 的 逻辑 连接 ， 包 括 接 下 来 将 会 在 12.2.3 节 中 遇 到 的 任 

何 一 种 逻辑 连接 。 
实际 上 ， 在 图 12-6 中 可 以 看 到 这 种 重 映射 的 例子 。“ 启 动 ”任何 PN 的 节点 可 以 限制 该 PN 
与 其 自身 或 其 他 PN 的 连接 ， 从 而 产生 非常 灵活 的 操作 安排 。 





12-6 在 PPU 内 重新 映射 PN 以 及 在 PN 之 间 建 立 的 连接 可 以 采用 几 种 替代 的 互 连 策略 。 在 这 种 情况 
下 , 图 12-6a 展示 了 三 个 PN 独立 运行 ， 可 能 由 外 部 控制 器 控制 作为 三 方 多 数 选 投票 判决 。 
图 12-6b 表 明 ， 多 数 表 决 过 程 本 身 已 经 从 控制 器 印 载 下 放 到 PN 上 ， 而 PN 又 要 求 其 与 他 三 个 
PN 合作 。 图 12-6c 显示 了 四 个 完全 互 连 的 PN， 其 中 一 个 负责 与 控制 器 的 交互 


在 启动 周期 开始 时 ， 当 所 有 资源 都 正常 运行 时 ，PPU 对 于 赎 入 式 计 算 机 (尤其 是 十 多 年 前 
设计 的 计算 机 ) 来 说 处 理 速 度 是 相当 可 观 的 ， 大 约 有 1000 MIPS， 在 1800cm (大 小 与 小 型 笔记 
本 电脑 相同 ) 的 封装 中 消耗 6W 的 电力 。 传 统 的 微型 卫星 机 载 计算 机 消耗 相同 的 电力 ， 处 理 速 
度 却 为 PPU 1/200, 但 体积 是 PPU 的 两 倍 或 三 倍 ， 而 且 成 本 大 约 是 PPU 的 10 倍 ， 尽 管 在 卫星 
设计 中 成 本 不 是 首要 考虑 因素 。 

虽然 PPU 还 有 一 些 有 趣 的 设计 特性 ， 包 括 一 个 特别 的 为 了 达到 最 佳 数据 传输 速度 的 17 位 
并 行 数据 总 线 配 置 ， 但 本 节 的 重点 仍然 是 讨论 并 行 性 。 考 虑 到 这 一 点 ， 请 看 图 12-7， 其 中 绘制 
了 处 理 器 数量 与 加 速度 之 间 的 比例 关系 。 在 5. 8. 2 节 中 的 加 速度 表示 系统 定义 了 并 行 计 算 处 理 
性 能 的 优 劣 。 完 美的 加 速度 (如 图 12-7 中 的 对 角 线 所 示 ) 意味 着 一 个 作业 在 个 处 理 器 上 运 
行 的 处 理 速 度 会 比 在 一 个 处 理 器 上 的 运行 速度 快 n 售 。 在 PPU 上 运行 的 示例 算法 虽然 无 法 达到 
完美 的 加 速度 ， 但 是 很 明显 算法 处 理 速度 会 得 益 于 PPU 并 行 性 的 增长 。 














加 速度 




















处 理 器 数量 


图 12-7 可 以 通过 在 多 达 九 个 PN 之 间 共 享 图 像 处 理 作业 来 实现 在 PPU 内 具有 符合 对 角 线 般 的 完美 加 速 。 
很 明显 ，PPU 没有 达到 完美 的 加 速度 ， 但 显然 会 得 益 于 平行 处 理 。 这 个 结论 是 由 PPU 的 共同 发 
明 人 Timo Bretschneider 博士 和 他 的 学 生 从 分 析 涉及 无 监督 图 像 分 类 任务 的 处 理 中 得 来 的 
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12. 2.2 并 行 和 集群 处 理 注意 事项 

并 行 处 理 系 统 设计 问题 可 能 包括 : 

。 需要 多 少 个 处 理 器 ? 

。 它们 应 该 互 连 吗 ? 

。 每 个 处 理 器 应 具备 哪些 功能 ? 

。 系统 应 该 是 同 构 的 还 是 异 构 的 〈 即 所 有 CPU 类 型 应 该 是 相同 的 ， 还 是 应 该 混合 使 用 )? 

如 果 正 在 使 用 个 处 理 器 ， 则 正如 之 前 所 了 解 的 那样 ， 完 成 时 间 可 能 不 等 于 单个 处 理 器 所 
花费 的 时 间 的 n 倍 ， 即 使 在 同类 系统 中 也 是 如 此 。 实 际 花 费 的 时 间 可 能 比 n 倍 更 多 ,或 者 甚至 
小 于 单个 处 理 器 所 花费 的 时 间 的 n 倍 。 这 都 取决 于 一 开始 使 用 的 是 单线 程 处 理 还 是 并 行 处 理 。 

一 些 计算 问题 可 以 容易 地 划分 成 多 个 子 任务 ,这些 子 任务 之 间 的 数据 传输 量 很 小 。 因 此 ， 
可 以 将 每 个 子 任务 分 配给 不 同 的 处 理 单元 。 在 其 他 系统 中 ， 这 个 过 程 可 能 不 是 那么 简单 。 

由 于 子 任务 的 复杂 程度 不 同 ， 系 统 可 以 受益 于 异 构 结构 一 一 一 种 由 不 同 能 力 的 处 理 器 组 
成 ,并 且 处 理 器 之 间 的 互 连 可 以 满足 所 要 求 的 计算 能 力 的 结构 。 这 就 是 说 ， 异 构 互 连 也 是 可 行 
的 。 然 而 ， 当 想 要 动态 地 完成 任务 分 割 ， 并 且 把 任务 分 给 本 身 是 就 动态 选择 的 不 同类 型 的 处 理 
器 时 ， 对 这 种 系统 的 控制 会 变 得 更 加 复杂 。 


12.2.3 互 连 策 略 


考虑 一 个 更 普遍 的 具有 相同 (同类 型 ) 处 理 器 的 系统 ， 可 以 将 其 称 为 节点 。 如 果 这 些 节 
点 以 常规 方式 链接 ， 则 系统 设计 的 两 个 主要 问题 是 节点 所 使 用 的 互 连 类 型 以 及 互 连 的 数量 或 排 
列 方式 。 

节点 互 连 类 型 将 会 确定 链 路 传输 的 数据 的 带宽 是 Mbit/s 还 是 Gbit/s， 也 会 确定 传递 的 消息 
的 延迟 即 在 链 路 的 一 端 发 出 的 消息 所 花费 的 时 间 ) 是 多 少 。 一 些 典 型 的 互 连 类 型 是 以 太 网 、 
ATM 〈 蜡 步 传 输 模 式 ) 、 光 互 连 、 无 限 带 宽 等 。 这 些 互 连 类 型 的 差异 在 于 带宽 和 成 本 不 同 。 

此 外 ， 分 布 式 并 行 处 理 系统 有 两 种 范例 ， 它 们 在 共享 内 存 和 消息 传递 之 间 有 许多 不 同 。 消 
息 在 节点 之 间 的 传递 使 用 结构 化 方法 进行 ， 例 如 消息 传递 接 


口 (MPI) ， 它 非常 适合 那些 只 需要 低 带 宽 数 据 互 连 的 松散 耦 
合 任务 。 当 独立 的 处 理 器 处 理 相同 源 的 数据 或 需要 中 到 高 带 
宽 通 信 时 ， 内 存 共享 是 十 分 有 用 。 在 4.4.7 节 讨 论 MESI 高 速 JE 
缓存 一 致 性 协议 时 谈 到 了 共享 内 存 系统 。 共 享 内 存 并 行 计算 
在 概念 上 和 共享 内 存 系统 类 似 ， 但 它 规模 要 大 得 多 。 


通常 ， 每 个 节点 自身 所 拥有 的 互 连 点 的 数量 限制 了 它 可 
以 连接 的 其 他 节点 的 数量 。 一 种 极端 的 情况 是 节点 本 身 存 在 掉 直 [| 





它 自 身 完 全 连 满 其 他 节点 的 可 能 性 。 在 处 理 吉 之 间 的 连接 速 
度 相 对 较 慢 的 前 提 下 ， 因 为 每 次 传输 是 一 跳 ， 完 全 链接 的 系 网 格 
统 将 数据 传输 持续 时 间 最 小 化 了 。 男 一 个 极端 情况 是 环形 结 
构 ， 其 中 每 个 节点 连接 到 另外 两 个 节点 ， 这 些 结构 以 及 其 他 
几 种 常见 的 互 连 结构 如 图 12-8 所 示 。 
。 环 : 每 个 元 素 点 需要 能 支持 两 个 连接 ， 而 且 它 是 可 
扩展 的 、 没 有 变化 的 。 两 个 目标 节点 之 间 可 能 存在 超 立 方 体 完全 互 连 结构 
许多 数据 跳跃 点 。 这 是 一 种 常规 排列 ， 易 于 设置 、 图 12-8 图 示 展 示 了 六 种 
管理 和 可 视 化 。 不 同 的 互 连 结构 
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。 树 : 每 个 元 素 (除了 树 的 顶层 和 底层 ) 都 需要 能 支持 三 个 连接 。 它 易于 扩展 ， 软 件数 
据 路 径 得 到 简化 ， 但 当 节 点 的 数量 变 得 很 大 时 ， 某 些 数 据 传输 可 能 需要 很 多 次 跳跃 。 
e 网 格 : 每 个 元 素 需 要 能 支持 四 个 连接 。 它 很 容易 扩展 ,但 有 些 节 点 需要 跳跃 很 多 次 才 
能 到 达 其 他 节点 。 表 格 结构 与 网 格 类 似 , 但 不 同 之 处 在 于 表格 不 提供 环绕 边缘 连接 
( 即 左 右 和 上 下 )。 这 两 种 结构 都 非常 常规 ， 易 于 设置 和 运行 ， 也 易于 扩展 ， 
。 超 立 方 体 : 每 个 元 素 只 需要 以 四 面体 方式 支持 四 个 连接 ， 同 时 数据 传输 路 径 所 需 跳跃 
点 也 是 最 小 化 的 。 在 许多 情况 下 ， 超 立方 体 结构 常常 是 被 选择 的 架构 : 有 时 仅仅 因为 
它 在 新 闻 稿 中 显得 更 具 技 术 性 ， 但 实际 上 选择 它 是 在 链接 数量 和 延迟 (跳跃 ) 之 间 权 
衡 的 结果 。 
。 完全 互 连 结 构 : 每 个 元 素 都 能 支持 与 其 他 任意 一 个 元 素 的 连接 ， 这 使 得 它 难以 扩展 ， 
因为 每 添加 一 个 节点 意味 着 需要 新 增加 与 现 有 节点 数量 相同 的 连接 数 。 大 量 的 连接 意 
味 着 每 个 节点 需要 有 大 量 的 端口 以 及 需要 大 量 的 物理 互 连 。 这 些 都 表明 ， 对 于 大 型 装 
置 来 说 ， 最 好 避免 这 种 排列 方式 ， 然 而 ， 因 为 节点 和 任何 其 他 节点 之 间 只 需要 一 次 跳 
跃 ， 它 具有 最 低 的 延迟 时 间 。 
当然 ， 在 很 多 情况 采用 了 混合 方案 ， 例 如 ， 一 个 网 格 结构 中 的 环 ， 环 的 每 个 “节点 ”所 
连接 的 一 系列 机 器 也 可 以 组 成 网 格 ， 更 常见 的 例子 可 能 是 超 立方 体 网 格 。 这 些 集群 计算 机 布置 
成 网 格 状 ， 其 中 网 格 内 的 每 个 顶点 又 包括 多 处 理 器 构成 的 超 立 方 体 。 
节点 粒度 程度 的 大 小 表明 了 并 行程 度 的 大 小 。 在 细 粒 度 控制 访问 的 机 器 中 ， 实 际 的 机 器 指 
令 是 并 行 发 布 的 〈 例 如 矢量 机 器 或 VLIW 处 理 器 ) ， 而 粗 粒 度 访问 控制 的 机 器 可 以 并 行 运行 大 
型 软件 程序 或 单独 的 软件 项 目 。5. 8 节 讨 论 了 并 行 的 不 同形 式 。 
使 用 诸如 MPI 之 类 的 抽象 方法 ， 颗粒 粒度 并 行 算法 可 以 在 不 同 的 程序 实例 中 执行 ， 无 论 这 
些 是 在 一 个 CPU 上 运行 还 是 在 多 个 CPU 上 运行 都 是 不 重要 的 。 类 似 地 ， 这 些 CPU 是 位 于 单个 
盒子 中 ,还 是 位 于 单个 数据 中 心中 的 多 个 盒子 中 ,或 是 位 于 云 或 网 格 计算 系统 内 的 多 个 不 同 的 
地 理 位 置 中 ， 也 无 关 紧 要 。 
粗 粒 度 机 器 往往 是 松散 耦合 ， 而 细 粒 度 机 器 往往 是 紧密 耦合 。 元 素 之 间 的 数据 传输 指定 它 
们 之 间 数 据 传输 的 速度 ， 而 数据 遍历 所 需 的 跳跃 次 数 则 与 带宽 和 延迟 都 有 关系 〈 即 如 果 内 部 处 
理 器 的 数据 必须 遍历 两 个 跳跃 点 时 ， 则 每 次 跳跃 时 长 必须 能 达到 带宽 的 两 倍 ) 。 对 数据 传输 的 
要 求 也 会 影响 存储 器 体系 结构 ， 例 如 每 个 处 理 元 件 是 应 该 使 用 本 地 存储 器 还 是 共享 存储 器 。 本 
地 存储 器 可 能 具有 分 布 式 存储 器 结构 或 者 可 能 简单 地 使 用 高 速 缓存 的 多 个 副本 。 框 12. 1 显示 
了 一 些 大 规模 系统 的 例子 。 
大 型 集群 计算 机 的 若干 实例 
观察 目前 世界 上 最 快 的 超级 计算 机 的 Top500 列表 (www. top500. org) ， 能 看 到 各 种 有 趣 的 计算 机 系统 。 
神威 太湖 之 光 是 在 写 这 本 书 时 运行 最 快 的 超级 计算 机 。 它 位 于 中 国 无 锡 的 国家 超级 计算 中 心 ， 由 
10 649 600 个 Sunway SW26010 多 核 处 理 器 内 核 组 成 ， 每 个 内 核 的 时 钟 频率 为 1.45GHz。 处 理 器 机 架 由 高 
效 直流 (DC) 电源 供电 ， 并 采用 水 冷 系统 来 保持 其 温度 。 该 系统 中 的 处 理 器 用 的 不 是 更 常见 的 Intel 设 
备 ， 而 是 由 上 海 高 性 能 集成 电路 设计 中 心 定制 设计 的 设备 。 它 使 用 的 软件 似乎 是 名 为 Sunway RaiseOS 的 
专 为 Linux 操作 系统 定制 的 版 本 。 峰 值 性 能 为 125 436TFlop/s， 但 该 机 器 消耗 的 电力 超过 15MW， 与 西欧 
中 型 城镇 耗 电量 大 致 相同 。 系 统 效 率 为 6. 05 GFlop/W。 
目前 欧洲 最 快 的 系统 Piz Daint 位 于 瑞士 卢 加 诺 的 瑞士 国家 超级 计算 中 心 ， 是 一 台 与 众 不 同 的 机 器 。 
它 混合 了 Cray XC50/XC. 40， 使 用 了 多 代 Intel Xeon 内 核 ， 每 个 内 核 运 行 速 度 在 2.1 ~2.3GHz 之 间 ， 且 每 
个 内 核 至 少 有 64GB 的 本 地 RAM。 其 中 12 个 配备 了 具有 16GB 内 存 的 NVIDIA Tesla P100 GPU。 它 所 有 的 
206 720 个 核心 数量 约 是 太湖 之 光 的 1/50， 但 能 达到 非常 可 观 的 性 能 峰值 ， 约 为 15988TFlop/s( 是 太湖 之 
光 的 1/8)。 然 而 ，Piz Daint 的 优势 在 于 它 的 功 耗 是 1.3MW， 相 当 于 7.45GFlop/W， 这 使 其 成 为 当今 世界 
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上 功效 最 高 的 大 型 集群 计算 机 之 一 。 与 所 有 其 他 极速 机 器 一 样 ， 它 运行 在 基于 Linux 的 操作 系统 之 上 。 

Green500 列表 是 Top500 列表 里 面 数据 的 不 同 排序 。Green500 列表 按 功 效 排 列 。 之 前 已 经 了 解 到 了 功 
效 第 二 的 系统 ， 但 现在 需要 了 解 目 前 的 功效 第 三 的 系统 : 

Shoubu 是 日 本 RIKEN 高 级 计算 与 通信 中 心 的 Zettascaler-1.6 系统 ， 是 一 台 有 趣 的 异 构 机 器 。 它 包含 
1 313 280 个 处 理 器 内 核 ， 这 些 内 核 是 由 2.3GHz Xeon E5 处 理 器 和 PEZY-SC 加 速 器 组 成 。PEZY-SC 设备 
本 身 就 是 一 个 非常 有 趣 的 异 构架 构 ， 由 两 个 0.7GHz ARIU9 内 核 和 1024 个 RISC 处 理 器 元 件 组 成 。 它 以 地 
理 分 层 的 方式 排列 ， 从 四 个 核心 的 “村 庄 ” 出 发 ， 到 这 四 个 村 庄 的 上 一 级 “城市 ”， 再 到 16 个 城市 的 上 
一 级 “省 ”。 这 种 排列 是 十 分 节省 能 耗 的 ， 这 就 允许 PEZY- SC 加 速 系统 占据 Green500 列表 的 多 个 位 置 。 
Shoubu 本 身 消耗 的 功率 小 于 0.15kW， 它 的 峰值 性 能 为 1533TFlop/s。 这 大 约 是 Piz Daint 功 耗 的 1X10， 即 
使 它 是 一 个 较 旧 的 架构 ， 以 这 1/10 的 功 耗 也 能 略微 提高 它 运行 的 效率 。 目 前 ， 一 些 制造 商 正 致力 于 开发 
基于 现代 ARM 或 Cortex 架构 的 超级 计算 机 加 速 器 (基于 ARMv8)， 这 可 能 使 ARM 架构 设备 能 够 进一步 
进入 Green500 和 Top500 榜 单 。 在 操作 系统 方面 ，Shoubu 也 是 运行 在 Linux 系统 上 。 

显然 ， 由 谷歌 和 亚马逊 等 公司 运营 的 大 型 服务 器 没有 位 列 在 这 些 榜 单 上 ， 它 们 很 可 能 是 可 以 排 在 世 
界 上 最 强大 的 计算 机 列表 上 的 ， 然 而 ， 谷 歌 、 亚 马 逊 或 其 主要 商业 竞争 对 手 所 公开 的 相关 信息 都 很 少 。 


12.3 异步 处 理 器 

所 有 常见 的 CPU 在 操作 中 是 同步 的 ， 这 意味 着 它们 由 一 个 或 多 个 全 局 时 钟 (和 时 域 ) 计 
时 ， 例 如 处 理 器 时 钟 、 存 储 器 时 钟 、 系 统 时 钟 、 指 令 时 钟 、 总 线 时 钟 等 。 

在 特定 的 时 钟 域内 ， 片 上 物理 区 域 受 到 相同 的 时 钟 触 发 器 和 基于 触发 器 构建 的 单元 作用 ， 
将 同步 运作 。 特 定 域 的 时 钟 速度 由 其 中 最 慢 的 单个 元 素 所 限制 。 通 常 ， 这 意味 着 许多 独立 的 元 
素 可 以 更 快 地 运行 ， 但 是 会 被 最 慢 的 元 素 所 限制 。 

例如 ，ALU 从 两 个 保持 寄存 器 获取 其 输入 ， 在 一 个 时 钟 周期 之 后 将 结果 锁 存 到 输出 寄存 器 
中 。 如 果 执 行 ADD， 则 操作 也 许 准时 完成 ， 实 际 操 作 比 结果 可 能 提前 0. 01 个 时 钟 周期 就 准备 
好 了 。 但 是 ， 如 果 操 作 更 简单 ， 例 如 没有 进位 的 AND 算法 ,那么 操作 可 能 已 经 提前 很 久 就 准 
备 好 了 ， 比 如 可 能 提前 0. 9 个 时 钟 周期 。 因 此 ， 这 取决 于 ALU 正在 做 什么 算法 ， 它 要 么 几乎 被 
完全 占用 ， 要 么 就 在 等 待 收集 最 后 的 结果 。 无 论 如 何 ， 控 制 它 的 固定 处 理 器 时 钟 将 被 设置 为 比 
最 慢 的 操作 稍 慢 。 

对 ALU 操作 进行 分 析 可 能 会 发 现 ， 在 相当 长 的 时 间 内 ， 该 单元 会 处 于 空闲 状态 。 这 表明 
它 使 用 效率 低 。 人 们 已 经 学 到 了 几 种 技术 来 克服 这 种 效率 限制 问题 ， 包 括 允 许 并 行 操作 〈 即 几 
个 事件 同时 发 生 而 不 是 顺序 发 生 ) 和 流水 线 操作 〈 请 记 住 ， 流 水 线 操 作 将 是 各 个 步骤 分 解 为 
更 小 、 更 快 的 步 又， 然后 每 个 步骤 执行 期 间 会 重 到 。 本 书 的 观点 是 ， 由 于 现在 每 个 单独 的 元 素 
都 更 快 ， 因 此 整体 的 时 钟 速度 可 以 大 幅 提高 ) 。 

一 种 非常 不 常见 的 技术 是 允许 异步 操作 。 异 步 处 理 器 允许 每 个 操作 全 速 执行 而 不 会 浪费 时 
钟 周 期 。 实 际 上 ， 异 步 操 作 可 能 根本 不 需要 时 钟 ， 因 为 每 个 单独 的 元 件 可 以 以 最 大 速度 操作 ， 
在 操作 完成 时 通知 控制 硬件 。 图 12-9 展示 了 一 个 示例 ， 其 中 ALU 先 执 行 ADD 后 执行 AND， 其 
中 先前 的 ALU 输出 (来 自 ADD) 是 一 个 操作 数 。 从 上 到 下 审视 这 个 图 ， 任务 中 的 子 步骤 显示 
在 顶部 ， 后 面 是 显示 处 理 器 活动 的 条 形 图 ， 然 后 是 同步 时 钟 ， 最 后 是 功率 图 。 时 间 变 化 方向 在 
此 图 中 按 从 左 向 右 移动 增加 。 

对 于 同步 情况 ， 活 动 栏 显示 在 ALU 完成 操作 时 有 大 量 空闲 时 间 ， 并 在 继续 操作 下 一 步 之 
前 会 等 待 下 一 个 时 钟 周 期 。 功 率 曲线 在 高 功率 和 低 功 率 周期 之 间 快 速 振荡 (从 电源 设计 角度 或 
从 CPU 温度 波动 角度 来 看 都 是 不 好 的 ) 。 相 比 之 下 ， 异 步 CPU 将 每 个 操作 安排 得 更 加 紧密 ， 时 
钟 信号 的 运行 速度 与 每 个 子 操作 所 需 的 一 样 快 。 尽 管 使 用 的 总 能 量 (功率 图 下 的 阴影 区 域 ) 
在 两 种 情况 下 都 是 相同 的 ,但 异步 CPU 功率 曲线 更 平滑 。 显 然 ， 由 于 异步 设备 可 以 节省 更 多 
的 空闲 时 间 ， 因 此 可 以 更 快 地 完成 整个 任务 。 
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ALU 做 一 个 加 法 

从 ALU 输 出 收集 数据 
更 多 数据 被 送 到 ALU 
ALU 做 一 个 与 运算 
从 ALU 输 出 收集 数据 
更 多 数据 被 送 到 ALU 
ALU 做 一 个 与 运算 
从 ALU 输 出 收集 数据 
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从 ALU 输 出 收集 数据 
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图 12-9 ”比较 两 个 操作 序列 在 同步 和 异步 RISC 处 理 器 上 执行 的 方式 


同步 方法 的 优点 : 

。 设计 更 简单 ， 有 更 多 关于 同步 方法 的 设计 经 验 。 

e 几乎 所 有 的 (不 是 全 部 ) CPU 设计 工具 都 采用 时 钟 设计 。 

。 同步 设计 消除 了 竞争 情况 。 

e 延迟 是 可 以 预测 的 。 

同步 方法 的 缺点 : 

。 在 更 高 的 运行 速度 下 ， 时 钟 偏差 或 抖动 可 能 成 为 一 个 问题 。 

e 几乎 所 有 的 锁 存 器 和 门 都 随时 钟 周期 的 变化 而 切换 (无 论 是 否 有 新 的 数据 需要 处 理 ) ， 

并 且 CMOS 发 生 功 耗 主 要 是 由 切换 导致 的 ， 因 此 会 导致 相对 较 高 的 功 耗 。 

。 低 于 理论 上 的 最 大 性 能 〈 以 最 慢 元 件 的 速度 运行 而 浪费 的 时 钟 周 期 部 分 ) 。 

。 需要 用 大 面积 的 硅 芯片 来 设计 时 钟 生成 和 分 配 部 分 。 

转向 异步 方法 是 有 意义 的 ， 尽 管 每 个 异步 元 素 仍 然 必 须 与 其 相 邻 元 素 建 立 接口 一 一 这 种 接 
口 可 能 需要 某 种 形式 的 同步 ， 而 这 种 形式 的 同步 可 能 相对 简单 。 但 是 对 于 许多 元 素来 说 ， 在 IC 
上 的 复制 将 导致 额外 的 逻辑 。 

从 理论 上 讲 ， 蜡 步 处 理 器 应 该 比 等 效 的 同步 处 理 器 以 更 低 的 功率 和 更 高 的 速度 运行 。 但 
是 ,设计 师 必须 非常 小 心地 注意 发 生 竞争 条 件 的 可 能 性 。 如 果 能 避免 这 些 可 能 ， 实 际 上 会 使 异 
步 处 理 器 略 优 于 同步 处 理 器 。 

AMULET 是 异步 处 理 器 (事实 上 它 可 能 是 世界 上 唯一 的 商业 异步 架构 处 理 器 ) 的 一 个 例 
子 。 这 是 由 英国 曼彻斯特 大 学 基于 非常 流行 的 ARM 处 理 器 设计 的 。 在 AMULET 的 设计 中 ， 必 
须 克 服 一 些 问题 。 接 下 来 将 会 介绍 一 些 设计 者 为 解决 这 些 问题 所 采用 的 方法 。 


12. 3. 1 数据 流 控 制 


如 果 处 理 器 内 没有 参考 时 钟 ， 那 么 如 何 控 制 从 一 个 单元 到 男 一 个 单元 的 数据 流 ? AMULET 
使 用 了 一 种 称 为 请 求 - 确认 握手 的 技术 ， 该 技术 遵循 单 向 并 行 总 线 的 以 下 事件 序列 : 

1) 发 送 者 把 它 的 数据 传送 到 公共 总 线 上 。 

2) 发 送 者 发 出 请 求 事件 。 

3) 准备 好 后 ， 接 收 器 从 总 线 读 取 数 据 。 
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4) 接收 器 接收 数据 后 发 出 确认 事件 。 

5) 发 送 者 可 以 从 总 线 中 移 除 数据 。 

请 求 和 确认 信号 是 两 条 相互 独立 的 线 ， 与 标准 总 线 一 起 运行 。 图 12-10 所 示 的 图 表 说 明了 
这 些 边 缘 敏感 (过渡 编码 ) 信号 的 使 用 情况 。 





请 求 事件 是 
快 / 而 认 事 件 N 
图 12-10 ”请求 - 响应 异步 总 线 通信 的 总 线 传 输 事 务 


使 用 请 求 -确认 信 令 允许 每 个 元 素 自 定时 。 每 个 AMULET 管道 元 件 都 以 不 同 〈 最 佳 ) 速 
度 运行 ,具体 取决 于 正在 执行 的 实际 指令 。 换 名 话说， 执行 简单 操作 的 单元 将 会 快速 地 完成 操 
作 ， 而 执行 更 复杂 操作 的 单元 将 花费 更 长 时 间 。 在 最 坏 的 情况 下 ,管道 的 速度 与 同步 时 钟 的 速 
度 相 同 (这 意味 着 它 的 时 钟 频率 是 作为 最 慢 的 元 素 ， 所 以 它 执 行 连续 的 最 慢 指 令 )。 但 是 ,在 
任何 实际 应 用 程序 中 ， 管 道 的 运行 速度 都 比 完全 同步 版 本 的 速度 要 快 。 


12. 3.2 避免 管道 冒险 


如 果 指 令 在 不 同 的 、 可 能 未 知 的 时 间 内 完成 ， 那 么 如 何在 管道 内 避免 内 存 冒 险 ? 

由 于 处 理 器 与 其 父 级 ARM 共享 加 载 存储 架构 ， 所 以 几乎 所 有 CPU 操作 数 都 是 存 人 寄存 器 
里 的 。 因 此 ， 如 果 需 要 将 输入 内 容 作为 中 间 操 作 的 输入 ， 那 么 需要 一 种 方法 来 防止 寄存 器 里 的 
内 容 被 所 求 得 的 结果 覆盖 。 

一 种 解决 寄存 器 锁定 的 方案 是 基于 寄存 器 锁定 FIFO。 当 发 出 需要 写 人 特定 寄存 器 的 指令 
时 ， 它 会 锁定 FIFO， 然 后 在 写 人 结果 时 将 其 清除 。 读 取 寄 存 器 时 ， 将 检查 FIFC 以 查找 与 该 寄 
存 器 相关 的 锁定 。 如 果 存 在 锁定 ， 则 和 暂停 读 取 寄 存 器 直到 该 寄存 器 清 零 。 

图 12-11 中 给 出 了 一 个 例子 ， 它 显示 了 前 8 个 寄存 器 锁定 FIFO， 并且 对 应 于 管道 位 置 的 锁 
定 从 顶部 进入 ， 且 随 对 应 数据 流通 过 管道 一 起 向 下 移动 。 在 正在 运行 的 程序 中 ， 第 一 条 指令 的 
结果 进入 rl( 然 后 锁定 被 删除 )。 第 二 条 指令 的 r8 3 2 rl nm 
结果 进入 蕊 (然后 清除 该 锁定 ) 。 第 三 条 指令 的 
结果 转 到 8 (然后 清除 该 锁定 )。 在 当前 时 间 ， 
对 、 臣 或 区 3 i 直到 清除 当前 
流水 线 中 的 指令 

虽然 寄存 器 锁 山 定 解决 了 潜在 的 危险 ， 但 已 
经 证 明 它 会 频繁 地 导致 流水 线 停 顿 ， 因 此 最 近 
的 AMULET 处 理 器 开发 利用 了 适用 于 异步 使 用 
的 寄存 器 转发 技术 。 图 12-11 AMULET 处 理 器 中 的 寄存 器 锁定 


硬件 有 助 于 防止 管道 冒险 
12.4 替代 数字 格式 系统 


纵 观 当今 的 计算 机 界 和 CPU 界 ， 可 以 看 到 存在 大 量 二 进 制 逻辑 器 件 ， 其 中 人 逻辑 1 由 高 压 电 
平 表示 ， 逻 辑 0 由 低 电 压 电 平 表 示 。 二 进 制 字 由 几 个 这 样 的 位 组 成 ， 通 常 为 4，8，16，24，32 
或 64。 无 论 使 用 二 进 制 补 码 还 是 无 符号 数 ， 二 进 制 字 中 每 一 位 的 加 权 都 表示 为 2 的 寡 次 方 。 浮 
点 数 进 一 步 扩展 了 数 概念 ， 可 分 别 表示 尾数 和 指数 ， 但 这 些 也 是 二 进 制 字 ， 权 重 也 是 基于 2 的 
需 次 方 。 

模拟 计算 机 是 一 种 令 人 耳目 一 新 的 替代 方案 ， 但 随 着 数字 计算 机 变 得 速度 更 快 、 价 格 更 便 
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宜 、 体 积 更 小 和 计算 更 准确 ， 这 些 模拟 计算 机 在 20 世纪 80 年 代 逐 步 被 淘汰 。 似 乎 全 世界 都 已 
经 适应 了 用 数字 二 进 制 系统 来 满足 其 计算 需求 。 
然而 ， 有 一 些 细 化 应 用 的 研究 方案 ， 在 未 来 可 能 很 快 成 为 主流 。 这 些 将 在 下 面 进行 探讨 。 


12.4.1 多 值 逻 辑 


采用 越 来 越 快 的 时 钟 速度 已 成 为 计算 行业 多 年 的 标准 ， 但 是 时 钟 速度 仍 有 局 限 性 存在 。 的 
确 ， 这 些 局 限 可 能 会 逐渐 被 打破 ， 但 它们 仍 会 限制 计算 机 行业 进度 。 正 如 在 第 6 章 以 及 本 章 前 
面 所 述 ， 如 果 时 钟 速率 受到 限制 ， 可 以 通过 并 联 更 多 线路 从 而 将 更 多 数据 向 下 移动 到 总 线 。 或 
者 通过 在 时 钟 沿 的 两 个 边沿 上 都 计数 〈 称 为 双 倍 数据 速率 或 DDR ) 。 

除 此 之 外 ， 还 有 另 一 种 选择 ， 这 是 为 了 让 每 根 电线 同时 能 传递 更 多 信息 。 正 常 二 进 制 数 使 
用 高 电压 和 低 电 压 来 表示 1 和 0。 例 如 , 在 5V 系统 中 ， 二 进 制 1 可 以 是 高 于 2.5V 的 任何 电压 ， 
而 二 进 制 0 是 低 于 该 值 的 任何 电压 。 

多 值 逻辑 允许 中 间 电 压 值 传达 更 多 信息 。 将 上 面 的 5V 示例 扩展 到 四 级 多 值 逻辑 ， 每 条 线 
可 以 同时 传输 2 位 信息 ， 而 不 是 单个 信息 : 

00 0.0V 

Ql 17YV 

10, 3.3Y 

11 S$.0V 

这 与 电子 设备 中 常用 的 CMOS 电压 电 平 有 很 大 不 同 ， 并 且 需 要 更 复杂 的 驱动 器 和 检测 电 
路 ， 但 是 在 单 根 线 上 表示 的 数据 量 能 翻 倍 。 然 而 ， 与 使 用 两 个 〈 二 进 制 ) 电压 电 平 的 系统 相 
比 ， 它 确实 减少 了 数据 的 抗 干 扰 度 。 使 用 这 种 逻辑 的 CPU 需要 仔细 考虑 模拟 设计 和 数字 设计 
问题 。 由 于 降低 了 对 噪声 的 抗 扰 度 ， 多 值 逻辑 设备 对 噪声 和 干扰 尖峰 的 容忍 度 也 会 降低 ， 但 作 
为 交换 的 是 它 可 以 更 快 地 传输 更 多 数据 。 

尽管 作者 没有 见 到 任何 当前 使 用 多 值 逻 辑 的 商用 CPU， 但 该 技术 确实 已 经 在 存储 器 存储 中 
成 了 一 个 小 众 应 用 。 内 存 的 供应 商 不 断 承 受 着 需要 提供 “更 大 ”存储 设备 的 压力 ， 这 意味 着 
设备 可 以 在 给 定 的 卷 中 存储 更 多 的 内 存 。 制 造 商 通常 依靠 减 小 的 硅 的 特征 尺寸 来 设计 更 小 的 品 
体 管 ， 这 些 晶 体 管 可 以 更 密集 地 封装 到 IC 中 。 然 而 ,英特尔 在 十 多 年 前 引入 了 一 种 革新 的 设 
计 ， 它 允许 使 用 多 值 逻 辑 方法 将 2 位 或 4 位 数据 存储 在 单 晶 体 管 单元 中 。 这 项 研究 产生 的 商用 
NOR 闪存 设备 作为 Intel StrataFlash @ 销售 ， 并 且 已 经 在 尺寸 受 限 的 设备 ， 如 智能 手机 、 音 乐 播 
放 器 和 其 他 高 级 庶 入 式 系统 中 得 到 广泛 应 用 。 

请 注意 ， 多 值 的 数量 从 1 位 增加 到 2 位 ， 意 味 着 将 电压 阀 值 减 半 (但 能 表示 的 数据 量 会 加 
倍 ) 。 从 2 位 移动 到 3 位 意味 着 再 次 将 电压 阔 值 减 半 ， 但 是 能 表示 的 数据 量 只 能 增加 50% 。 收 
益 的 递减 加 上 噪声 灵敏 度 的 增加 ， 往 往 将 多 值 逻 辑 技术 限制 在 每 个 单元 /晶体 管 / 线 最 多 设置 在 
2 位 或 3 位 。 

最 后 提 到 的 一 点 是 在 7. 10 节 中 简要 提 到 的 宇宙 射线 辐 照 的 影响 ， 在 那 一 节 讨论 了 单 事件 
干扰 (SEU) 的 发 生 。 照 射 在 硅 栅 极 上 的 宇宙 射线 引起 存储 电荷 的 变化 ， 这 表现 为 电压 波动 。 
正如 所 讨论 的 那样 ， 多 值 逻辑 器 件 对 电压 噪声 的 抗 干扰 性 会 降低 。 诸 如 闪存 条 之 类 的 电荷 存储 
设备 具有 类 似 的 降低 电荷 波动 的 免疫 力 。 这 一 切 都 说 明 用 于 高 海拔 地 区 的 系统 中 最 好 避免 使 用 
多 值 逻 辑 和 存储 设备 。 


12. 4.2 有 符号 数字 表示 
有 符号 数字 (SD) 的 表示 是 二 进 制 表示 的 扩展 ， 这 使 得 存储 的 数字 存在 元 余 ( 即 存在 多 
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于 一 种 表示 每 个 数字 的 方式 ) 。 通 过 在 二 进 制 字 中 引入 数字 的 符号 的 可 能 性 来 实现 元 余 。 引 入 
符号 ， 就 意味 着 有 符号 数字 中 的 每 一 位 可 以 存 1、0 或 -1。 实 际 位 位 置 权重 与 任何 标准 二 进 制 
数 格式 是 相同 的 。 

仅 考虑 二 进 制 中 的 第 一 、 第 二 和 第 三 位 位 置 。 从 右 到 左 “ 向 后 ”阅读 ， 这 些 位 置 在 任何 
二 进 制 系统 中 都 具有 1，2 和 4 的 权重 。 标 准 二 进 制 可 以 使 用 这 三 个 位 置 来 分 别 存储 一 个 零 或 
者 一 个 单位 〈1) ， 零 或 者 一 个 2 以 及 零 或 者 一 个 4。 这 意味 着 二 进 制 数 001b 的 值 为 1( 十 进 制 ) 
〈 写 人 1d) ， 二 进 制 数 101b 的 值 为 1 +4=5d。 但 在 SD 中 ,每 个 位 的 位 置 也 可 以 存储 -1， 因 此 
可 能 会 看 到 一 个 SD 二 进 制 数 ， 如 10 -1b， 其 值 为 -1+4=3d。 男 一 个 例子 是 -1 -10b， 其 值 
为 -2 -4= -6d。 位 权重 如 图 12-12 所 示 ， 其 中 比较 了 二 进 制 、 十 进 制 和 SD 二 进 制 表示 。 


a 每 个 格子 
28| 6 | ie | | 2 医 


都 能 包含 
十 进 制 


000s| 1o0s | pee tog 
有 符号 数字 二 进 制 
rp 


图 12-12 与 标准 二 进 制 (顶部 ) 或 十 进 制 表示 (中间) 不 同 ， 有 符号 数字 允许 个 别 数字 为 
负数 和 正 数 。 有 符号 数字 二 进 制 ( 底 部 ) 允许 每 个 单独 的 数字 可 以 为 0，+1 或 -1 


有 符号 数字 表示 的 另 一 个 特别 的 方面 是 存在 与 表示 相关 联 的 自由 度 ， 因 为 通常 存在 多 种 写 
入 单个 整数 的 方式 〈 假 设 数字 不 是 因为 太 大 而 导致 不 能 用 所 选择 的 位 数 表 示 ) 。 这 与 标准 二 进 
制 恰恰 相反 ， 标 准 二 进 制 中 一 个 二 进 制 数字 组 合 只 表示 一 个 特定 值 ， 即 每 个 二 进 制 数字 都 有 一 
个 唯一 值 ， 每 个 十 进 制 数字 都 有 且 只 有 一 个 对 应 的 二 进 制 数值 。 十 进 制 的 23 用 有 符号 数 表示 
的 多 样 性 如 图 12-13 所 示 。 












































图 12-13 标准 二 进 制 只 有 一 种 表示 方式 ， 诸 如 十 进 制 数 23d 之 类 的 ， 而 有 符号 数字 通常 具有 多 种 表示 相 
同 值 的 方式 。 此 示例 显示 以 二 进 制 ( 顶部 ) 表示 的 十 进 制 数 字 23， 以 及 下 面 的 两 个 不 同 的 有 
符号 数字 二 进 制 表示 


根据 在 第 2 章 和 第 3 章 中 对 二 进 制 的 介绍 ， 可 以 立即 发 现 使 用 有 符号 数字 表示 所 存在 的 问 
题 一 一 一 个 处 理 有 符号 数 算法 的 ALU 或 加 法 器 必须 能 够 处 理 位 于 任何 位 置 的 负数 。 相 比 之 下 ， 
无 符号 二 进 制 根本 没有 负数 ， 甚 至 二 进 制 补 码 只 在 最 高 有 效 位 位 置 具 有 负 权 重 。 但 在 这 两 种 情 
况 下 ,一 个 位 上 要 么 是 0 要么 是 1， 所 以 为 了 支持 SD， 任 何 ALU 都 需要 具有 能 够 处 理 -1 的 能 
力 。 事 实证 明 ， 尽 管 这 是 一 个 比较 复杂 的 问题 ， 并 且 在 设计 ALU 时 需要 考虑 这 个 问题 ,但 在 
设计 它 时 不 需要 太 多 额外 的 硬件 ， 因 此 不 会 降低 ALU 的 效率 。 

更 进一步 的 有 符号 数 二 进 制 示例 如 下 所 示 ， 其 中 列 出 了 可 以 写 人 等 效 于 十 进 制 值 3 的 数字 





有 符号 数 值 





密度 
(000011) 2+1=3 2 
(00010 -1) 4-1=3 2 
(001 -10 -1) 8-4=1=3 3 
(O01 =1 =10 =1) 16-8-4—-1=3 i 
(1 -1 -1 -10 =1) 32-16-8-4-1=3 5 
(001 =1 =11) 8=4-2+1=3 4 
(01 -1 -1 -11) 16-8-4-2+1=3 5 
(1 =1 -1 -1 -11) 32-16-8-4-2+1 =3 6 


稍 后 将 会 看 到 ,选择 具有 更 多 零 位 的 替代 方案 ,在 实现 加 法 器 时 需要 更 少 的 操作 数 
( 门 ) ， 尤 其 是 在 实现 乘法 器 时 更 是 如 此 。 将 有 符号 数字 的 密度 定义 为 该 数字 所 有 位 上 非 零 数 
字 的 总 和 。 当 然 密度 越 低 越 好 ， 因 为 它 能 更 快 地 得 到 倍 乘 结果 。 

可 以 使 用 以 下 算法 将 任何 基数 为 2 的 二 进 制 数 〈 即 标准 二 进 制 数 ) 转换 为 SD 表示 : 

令 a_1，a_,，…a,， 表 示 二 进 制 数 ， 并 且 将 想得到 的 有 符号 数 表示 为 c_ |， c_，,，…， cio 
SD 表示 中 的 每 个 比特 可 以 通过 以 下 方法 来 确定 : 

ci1=a.i1 一 Qi; 其 中 j=b, 5b 一 1,，…, 1, 其 中 a_,_1 =0。 

为 了 更 好 地 利用 有 符号 数 表示 中 涉及 的 元 余 ， 当 它 用 于 逻辑 设备 ( 如 FPGA 或 类 似 系统 ) 
时 ， 最 好 确保 在 数字 的 表示 中 使 用 尽 可 能 少 的 非 零 数 字 ， 这 是 可 以 通过 使 用 最 小 的 有 符号 数字 
向 量 来 实现 的 。 这 是 具有 最 低 密 度 的 备 选 方案 中 的 一 种 (或 多 种 ) SD 表示 。 

前 面 所 示 表 格 中 的 所 有 示例 都 表示 相同 的 数字 (3)， 表 格 中 的 第 一 个 和 第 二 个 行 的 数 的 
最 小 密度 都 是 2， 因 此 是 十 进 制 值 3d 的 最 小 的 有 符号 数字 向 量 。 可 以 注意 到 的 是 第 二 行 的 
(00010 -1)， 它 是 最 小 有 符号 数字 向 量 。 另 外 可 以 看 到 ， 在 两 个 非 零 数字 之 间 有 一 个 零 
数 。 事 实 上 ， 可 以 证 明 的 是 ， 对 于 每 个 数字 ， 都 存在 用 有 符号 数 表示 的 替代 方案 ， 这 些 相 邻 的 
蔡 代 方案 中 的 数字 不 存在 非 零 数 。 在 这 种 情况 下 ， 有 时 会 存在 多 个 替代 方案 。 这 些 方案 的 数字 
称 为 规范 有 符号 数字 ( CSD)。 

因此 ，CSD 数 是 最 小 密度 的 有 符号 数字 向 量 ， 这 些 向 量 必须 能 满足 任何 两 个 非 零 数 字 之 间 
具有 至 少 一 个 零 。 

除了 由 于 在 计算 中 数据 存在 许多 零 而 导致 计算 所 需 硬 件 减少 之 外 ， 还 有 另 一 个 更 好 的 理由 
来 说 明 CSD 数字 是 具有 吸引 力 的 。 这 与 2.4. 2 节 的 并 行 加 法 器 有 关 ，2. 4. 2 节 中 提 到 加 法 的 最 
大 速度 受到 向 上 进位 传播 的 限制 。 当 然 可 以 采用 进位 超前 或 预测 技术 来 避免 限制 ， 但 当 操 作 数 
字 中 的 位 数 变 大 时 ， 这 两 种 方法 需要 大 量 的 逻辑 量 。 然 而 ， 如 果 能 够 保证 对 于 非 零 数字 ， 下 一 
个 最 高 有 效 数 字 始 终 为 零 ， 则 可 以 从 该 点 开始 就 不 会 有 进位 因为 没有 进位 传递 引起 的 延迟 ， 所 
以 确保 了 使 用 CSD 执行 加 法 的 速度 总 是 很 快 。 

一 种 产生 这 样 一 个 数字 的 方法 (由 Kai Hwang 在 1979 年 出 版 的 Computer Arithmetic: Princi- 
ples ，Architecture and Design 中 给 出 ) 如 下 所 示 : 

从 矢量 B=b.b,_,…bib。 表示 的 (n+1) 位 二 进 制 数 开 始 ， 其 中 b, =0， 每 个 元 素 b, e 10, 1|， 
其 中 0<isn -1。 由 此 希望 找到 (n+1) 数字 规范 有 符号 数字 (CSD) 向 量 D=d,d,_1…dido 且 
d, =0 以 及 d,e 11, 0，-1|。 在 它们 自己 的 表示 格式 中 ，B 和 D 都 应 代表 相同 的 值 。 

请 记 住 ， 在 确定 数字 ( 比如 任何 有 符号 数字 向 量 ， 包括 SD、CSD 等 ) 的 值 时 ， 二进制 的 
正常 规则 适用 于 每 一 位 的 位 置 加 权 值 : 


Q = > X2 = Pd 





下 面 所 阐述 的 这 个 有 启发 性 的 方法 是 基于 Hwang 所 提出 的 简单 但 又 合 逻 辑 的 获得 二 进 制 有 
符号 数 表 示 方 法 : 


从 B 的 最 低 有 效 位 开始 ， 并 设置 成 i=0,，co =0 


从 Bbi,1 和 ;以 及 进位 c; 中 取 两 个 相 邻 位 ， 并 使 用 它们 生成 下 一 个 进位 ci,1。 进 位 的 产生 方式 与 
全 加 器 相同 : 因此 ， 如 果 16;,1，6b+i, ci| 中 当 且 仅 当 有 两 个 或 三 个 1, 则 ci =1 








从 di; =b;+c -2ci,1 计 算 CSD 字 中 的 当前 数 
递增 i 并 跳 到 步骤 2， 直 到 当 i=n 时 终止 程序 








请 注意 ， 在 开始 计算 之 前 ， 原 始 二 进 制 数 的 最 高 有 效 位 固定 为 0 (从 而 数字 的 位 数 有 效 地 
延长 了 1 位 )， 因 此 ,用 CSD 表示 的 数 可 能 比 标准 二 进 制 多 了 一 个 额外 的 比特 位 。 详 见 框 12. 2 
中 对 CSD 编号 的 进一步 示例 。 
示例 CSD 编号 

例如 ， 考 虑 一 个 8 位 二 进 制 数 : 

(01010111)， 其 十 进 制 值 为 87d。 

应 用 Hwang 的 方法 ， 其 CSD 表示 变 为 (010 -10 -100 -1)， 值 为 128 -32 -8-1=87。 

在 第 二 个 示例 中 ， 由 于 它 是 规范 的 ， 因 此 数字 中 不 存在 两 个 相 邻 的 非 零 数 ， 并 且 所 得 到 的 CSD 数 的 
密度 是 4。 


12. 5 光学 计算 

高 级 研究 人 员 已 经 尝试 了 一 些 新 技术 来 改善 CPU 的 性 能 。 本 节 将 会 介绍 基于 光学 处 理 的 
两 个 有 趣 的 想法 。 光 信号 是 非常 有 趣 的 ， 因 为 它们 能 以 光速 传播 ， 也 就 是 说 ， 它 们 被 认为 是 传 
播 速 度 最 快 的 信号 。 如 果 知 道 硅 中 的 电子 传播 速度 有 限 会 限制 计算 机 性 能 ， 就 能 够 理解 能 极 快 
传播 的 光学 信号 为 什么 有 如 此 大 的 吸引 力 。 

任何 数字 计算 机 都 需要 依赖 于 交换 机 。 因 此 ， 在 过 去 二 十 年 左右 的 时 间 里 ， 大 量 人 们 对 光 
交换 技术 进行 了 大 量 研究 。 在 大 多 数 情况 下 ， 微 型 全 光 开 关 仍 然 难以 在 实验 室 被 创造 出 来 ， 但 
集成 光学 是 光学 技术 的 一 个 分 支 ， 它 试图 使 用 类 似 于 电子 IC 的 制造 技术 在 硅 基 片上 构建 光学 
电路 (有 时 在 同一 基板 上 会 与 电子 器 件 混合 ) 。 当 前 能 列举 的 集成 光学 装置 的 例子 包括 多 路 复 
用 器 、 滤 波 器 和 激光 二 极 管 发 射 器 等 。 

虽然 全 光学 计算 机 是 未 来 主要 的 研究 目标 ,但 近年 来 已 经 发 现 了 几 个 应 用 混合 电光 系统 的 
计算 机 的 例子 。 这 些 设 备 背 后 的 驱动 因素 是 所 有 光 信 号 都 以 光速 传播 ， 而且 几 个 信号 可 以 在 同 
一 物理 位 置 共 存 而 不 会 相互 干扰 〈 即 交叉 光束 不 会 出 现 与 交叉 电线 相同 的 问题 ) 。 光 于 涉 也 比 
电 干 扰 更 容易 受到 控制 和 限制 。 


12.5.1 电 一 光 全 加 器 


还 记得 2.4.2 节 中 全 加 器 中 的 进位 传播 延迟 吗 ? 这 个 过 程 中 的 问题 是 当 进 位 从 最 低位 到 最 
高 位 传播 之 前 输出 是 不 可 用 。 这 种 向 上 传播 延迟 成 为 限制 加 法 器 速度 的 主要 因素 。 

电 - 光 全 加 器 的 工作 原理 是 使 进位 以 光速 运行 。 图 12-14 所 展示 的 进位 电路 就 是 在 实现 这 
一 目标 。 需 要 注意 的 重要 事项 是 线路 x 和 y 作为 电信 和 号 输入 ， 而 进位 和 执行 是 光学 信号 〈 光 
束 )。 其 中 画 有 对 角 线 十 字 的 盒子 是 进行 电子 控制 的 光学 开关 ， 用 于 选择 阻挡 或 不 阻挡 下 面 的 
光束 。 光 路 从 左 到 右 传播 ， 在 某 些 点 被 分 成 两 路 ， 在 图 中 两 个 地 方 光 束 合并 在 一 起 〈 这 是 一 个 
逻辑 或 ) 。 

CG ， 妆 范 下 者 现下 瑟 人 

对 于 布置 为 并 行 加 法 器 的 这 种 结构 ，C;, 将 由 下 一 个 较 低 有 效 位 的 Cu 光束 馈送 。 每 位 有 两 个 开 


1513 


1514 | 


515 


354 第 12 章 





关 元 件 ， 只 要 有 输入 提交 ， 这 些 开关 就 会 切换 。 换 名 话说 ， 所 有 开关 在 用 于 所 有 位 计算 时 可 以 
同时 打开 。 光 携带 的 信号 以 光速 传播 并 通过 整个 结构 。 其 他 的 电路 (未 标 出 ) 用 于 计算 每 个 
比特 位 置 的 输出 结果 (结果 取决 于 输入 位 和 刚刚 定义 的 C;, ) 。 





图 12-14 电 =- 光 全 加 器 结合 了 电子 开关 和 光路 ， 创 建 了 一 个 非 
常 快速 的 加 法 器 ， 且 不 受 逻 辑 门 层 的 传播 速度 的 限制 


将 这 种 光速 传播 延迟 与 标准 n 位 全 加 器 的 传播 延迟 进行 比较 ,该 延迟 是 单个 加 法 元 件 延 述 
的 n 倍 (其 本 身 是 几 个 AND 和 OR 门 的 传播 延迟 )。 这 仅仅 展示 了 许多 光学 辅助 元 件 中 的 一 种 
技术 ， 这些 元 件 技术 包含 当前 计算 机 体系 结构 中 的 研究 课题 ， 在 未 来 可 能 会 在 高 性 能 CPU 中 
找到 这 些 元 件 。 

将 电 - 光 全 加 器 器 件 组 合成 完整 的 4 位 加 法 器 的 示例 如 图 12-15 所 示 。 四 个 器 件 被 排列 组 
合 以 达到 能 完成 一 个 4 位 加 法 计算 。 传 统 的 加 法 器 用 于 输入 实际 添加 的 带 有 进位 信号 的 输入 
《以 来 自 电 光 加 法 器 的 光速 进行 计算 。 其 他 组 合 的 加 法 器 也 是 可 能 的 ， 但 这 说 明了 电 - 光 加 法 
器 背后 的 消除 传播 延迟 的 主要 原理 一 一 这 意味 着 使 用 这 种 技术 所 构建 的 巨大 的 4096 位 加 法 器 
可 以 像 8 位 传统 加 法 器 一 样 快速 地 计算 出 结果 。 











图 12-15 ”这 是 一 个 示例 ， 图 12-14 的 电 - 光 加 法 器 被 用 于 制造 
一 个 没有 电子 传播 延迟 的 4 位 电光 混合 并 行 加 法 器 


12.5.2 电 一 光 底 板 


计算 机 内 部 包含 模块 或 者 卡 ， 随 着 总 线 变 宽 (数据 和 地 址 线 均 为 64 位 或 者 更 多 ) ， 需 要 在 
这 些 计算 机 内 的 模块 和 模块 之 间 ， 以 及 在 插件 模块 或 者 卡 之 间 连 接 大 量 信 号 。 同 时 ,计算机 和 
模块 的 时 钟 速度 也 变 得 越 来 越 快 ， 从 而 导致 计算 机 更 多 地 且 更 容易 地 受到 电磁 干扰 (EMI) 的 
影响 。 这 种 问题 使 得 设计 总 线 的 工作 变 得 更 加 复杂 ， 而 12 或 16 层 印刷 电路 板 (PCB) 对 于 概 
入 式 计算 机 设计 来 说 并 不 罕见 。 特 别 是 当 大 型 公共 总 线 需要 相互 交叉 时 ,设计 PCB 板 可 能 会 
变 得 很 困难 。 最 困难 的 是 设计 并 排 的 长 距离 并 行 总 线 (从 EMI 角度 来 看 ) 。 这 两 个 方面 使 得 将 
并 行 总 线 从 一 个 PCB 连接 到 另 一 个 PCB 时， 需要 用 到 大 型 连接 器 。 
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虽然 设备 和 子 系统 的 小 型 化 已 经 大 大 减少 了 对 任意 类 型 插入 式 板 卡 的 需求 (由 于 快速 且 可 
靠 的 串 行 总 线 技 术 的 发 明 ) ， 但 是 在 很 多 情况 下 ， 例 如 超 高 性 能 计算 机 、 航 空 电子 系统 (飞机 
上 的 计算 机 ) 和 电信 系统 等 ， 都 需要 搬 和 人 式 板 卡 。 后 两 种 情况 往往 需要 插 卡 才能 快速 更 换 掉 损 
坏 或 落后 的 子 系统 。 

机 械 捅 卡 的 使 用 依靠 边缘 连接 器 的 电 连 接 ， 而 边缘 连接 器 可 能 因 重 复 插 入 、 灰 侍 、 腐 蚀 或 
机 械 对 不 准 而 退化 。 因 此 ， 机 械 插 卡 可 能 在 机 械 、 电 气 、 可 靠 性 和 抗 干扰 方面 存在 问题 ， 同 时 
会 限制 卡 的 性 能 (主要 是 信号 速度 ) 。 解 决 这 些 问题 的 其 中 一 个 方案 涉及 电 - 光 技 术 。 在 这 种 
情况 下 ， 光 学 信和 号 的 最 大 优点 是 光束 相互 交叉 或 者 靠近 时 不 会 引起 相互 干扰 : 不 同 的 光束 可 以 
不 出 问题 地 同时 占据 相同 的 物理 空间 。 光 学 互 连 所 固有 的 这 些 优点 已 在 光学 底板 的 使 用 中 得 到 
了 证 明 ， 光 学 底板 的 每 个 输出 信号 都 使 用 单独 的 激光 二 极 管 ， 并 且 每 个 输入 的 信号 使 用 的 是 单 
独 的 光电 二 极 管 。 如 图 12-16 所 示 ， 传 输 全 息 图 可 以 用 来 把 信号 传送 到 接收 阵列 。 


传统 底板 














激光 二 极 管 “ 全 息 
让 薄片 7 3 个 播 模式 插 卡 ， 每 个 
插 卡 带 有 光敏 二 极 管 阵列 





图 12-16 电光 底板 (底部 图 ) 使 用 全 息 薄片 将 自由 空间 中 的 光 信 号 光束 从 激光 二 极 管 〈 或 LED) 发 身 
器 分 离 到 多 个 接收 器 阵列 ， 这 些 接收 器 阵列 位 于 物理 上 独立 的 播 卡 的 边缘 ( 主板 和 卡 都 是 电 
气 印 刷 电路 板 ) 。 对 于 传统 的 底板 (顶部 图 ) ， 每 个 卡 都 配 有 电气 边缘 连接 器 ， 需 要 在 每 个 元 
件 之 间 进 行 物理 和 机 械 连接 
光学 底板 没有 最 大 时 钟 速度 ， 时 钟 速度 仅 受 激光 二 极 管 调制 以 及 光电 二 极 管 带宽 限制 ， 这 
使 得 时 钟 速度 可 以 非常 快 ， 至 少 在 几 GHz 范围 内 。 它 们 还 允许 热 插 拔 (很 多 卡 可 以 不 必 先 插 
入 ， 可 以 在 系统 运行 时 插入 卡 槽 而 不 会 导致 底板 信号 发 生变 化 ) 。 
相 比 之 下 ， 快 速 电气 总 线 需要 终端 随 负载 变化 而 变化 ， 因 此 快速 总 线 通常 不 支持 热 插 拔 。 
更 重要 的 是 ， 光 学 底板 不 存在 电 触 点 老化 ， 所 以 它 具 有 非常 高 的 可 靠 性 。 
然而 ， 在 插 卡 时 要 求 将 卡 非常 仔细 地 对 准 插 槽 〈 使 得 信号 光束 仅 传 输 到 正确 的 光电 二 极 
管 ) ， 并 且 它们 比 无 源 〈 电 ) 底板 要 昂贵 得 多 。 在 这 里 还 假设 光束 通过 自由 空间 传播 ( 因此 光 
沿 着 卡片 边缘 传播 可 能 会 引发 问题 ) ， 完 全 有 可 能 在 其 他 光学 透明 介质 ， 例 如 硅 酸 盐 中 使 用 相 
同 的 技术 ， 这 种 技术 可 以 用 来 安全 地 包 庄 电路 。 


12.6 是 科幻 小 说 还 是 未 来 的 现实 
任何 地 方 的 计算 机 系统 、 计 算 机 工程 、 计 算 机 原理 和 计算 机 结构 课程 的 核心 课程 都 不 太 可 


能 会 讲 本 节 介 绍 的 内 容 。 本 节 的 内 容 甚至 可 能 无 法 被 验证 ， 只 有 事后 才能 知道 它们 是 否 可 实 
现 。 然 而 ， 科 幻 是 有 趣 的 、 不 寻常 的 和 不 断 创新 的 。 读 到 这 里 时 ， 你 可 以 将 本 节 作 为 一 种 奖 
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励 : 你 能 一 向 (甚至 超越 ) 在 计算 研究 领域 形成 的 一 些 狂 野 和 奇妙 的 想法 。 
有 时 ,研究 人 员 确 实 会 从 科幻 小 说 中 找寻 灵感 (同时 作为 一 种 放松 )。 通 常 来 说 ， 科 幻 小 
说 是 当前 科技 趋势 的 逻辑 延伸 ， 但 偶尔 会 产生 一 些 对 于 当时 来 说 显得 非常 奇怪 的 想法 。 来 看 看 


一 些 例子 : 
触摸 屏 计算 机 


因特网 


计算 器 


闭路 电视 
手持 科学 分 析 仪 


由 A. C. Stanley Kubrick 执导 的 电影 《2001: 太空 漫游 》 展 示 了 一 台 可 
以 播放 视频 的 触摸 屏 计 算 机 。 

马克 … 吐 温 在 1904 年 为 《伦敦 时 报 》 撰 写 了 一 篇 文章 ， 描 绘 了 一 个 
叫 作 “电视 镜 ” 的 东西 ， 它 预测 了 因特网 连接 功能 和 特点 (尽管 它 
所 描述 的 东西 更 像 是 如 今 的 谷歌 地 球 ) 。 

Jules Verne 于 1983 年 预测 了 计算 器 、 高 速 列车 、 全 球 通信 网 络 (以 
及 未 来 的 登陆 月 球 ) 的 存在 。 

曾 出 现在 乔治 ' 奥 威 尔 写 于 1949 年 的 著作 《1984》。 

1966 年 的 《星际 迷航 : 原初 系列 》 配 备 了 一 个 似乎 包含 一 个 小 屏幕 
的 手持 式 数 据 分 析 仪 。 这 种 神奇 的 医疗 和 工程 设备 的 变 体 是 十 分 有 用 
的 。 虽 然 一 些 研究 人 员 声 称 已 经 建立 了 现代 化 的 手持 科学 分 析 仪 ， 但 
是 2014 年 首次 发 布 的 Tricorder X- Prize 推动 了 “建设 优 于 或 等 于 认证 
医师 检测 结果 的 移动 检测 病人 方案 ”的 发 展 。 


从 上 面 的 例子 可 以 看 到 计算 机 、 视 频 技术 和 手机 在 成 为 实物 之 前 就 已 经 被 预言 会 出 现 了 。 
考虑 到 这 一 点 ， 或 许 最 好 看 一 下 当前 的 科幻 小 说 中 对 未 来 的 预测 。 


12. 6. 1 分 布 式 计算 


正如 前 言 中 提 到 的 一 样 ， 计 算 机 的 世界 正 变 得 越 来 越 伐 入 式 了 。 有 趣 的 是 这 种 变化 趋势 与 另 
一 种 向 无 线 连接 转变 的 趋势 相 一 致 。 随 着 技术 的 进步 ， 未 来 将 会 出 现 数 千 个 无 线 网 络 互 连 的 小 型 
化 处 理 单元 。 尽 管 大 多 数 处 理 器 名 义 上 都 专用 于 特定 功能 (例如 微波 处 理 器 、 电 话 处 理 器 或 中 央 
供暖 /空调 处 理 器 ) ， 但 很 可 能 在 一 些 特定 时 间 上 它们 中 的 大 多 数 都 不 会 用 到 这 些 名 义 上 的 功能 。 

简单 地 允许 空闲 处 理 器 进行 通信 和 协作 ， 将 使 得 计算 总 能 力 比 台式 PC 中 可 用 的 计算 能 力 
高 出 几 个 数量 级 。 随 着 人 机 交互 的 新 形式 出 现 以 及 软件 的 进步 ， 每 个 人 都 希望 能 够 与 自己 的 专 
用 计算 机 进行 个 性 化 交互 。 这 种 交互 将 依托 于 不 断 进 化 的 基本 处 理 器 集 实 现 ， 但 这 些 处 理 器 会 
为 用 户 提供 统一 的 界面 。 未 来 它 将 是 一 个 分 布 式 计算 机 程序 ， 可 被 远程 访问 ， 并 作为 自己 的 私 


人 助理 而 存在 。 


这 听 起 来 很 科幻 吗 ? 今天 存在 许多 基本 技术 。 此 外 ， 亚 马 逊 的 Alexa， 三 星 的 Bixzby， 谷 歌 
的 Home 和 苹果 的 HomePod 等 产品 近期 都 会 上 市 出 售 ， 所 有 这 些 产 品 都 将 语音 系统 用 于 人 机 交 
互 界面 ， 这 一 预测 在 现在 看 来 越 来 越 有 可 能 在 未 来 实现 。 


12. 6.2 湿 件 


这 可 能 会 进一步 深入 科幻 小 说 领域 , 但 如 果 目 前 的 遗传 学 和 生物 计算 机 的 进步 仍 在 继续 ， 
可 以 看 到 在 未 来 十 年 左右 ， 在 生物 机 器 上 也 能 进行 可 行 的 计算 。 当 人 们 在 脑海 中 想到 当今 最 复 
杂 和 最 强大 的 计算 机 时 ， 这 种 超前 的 概念 可 能 看 起 来 并 不 是 那么 不 可 实现 。 医 学 分 析 技 术 的 进 
步 不 断 揭示 人 类 和 哺乳 动物 大 脑 运作 的 越 来 越 多 的 细节 ， 人 们 对 这 些 系统 的 理解 也 在 不 断 改进 。 

现在 谈 到 硬件 是 指 计算 机 内 部 的 电子 系统 ， 固 件 是 计算 机 中 的 低级 重 编程 行为 ， 软 件 是 在 
硬件 上 运行 的 程序 ， 那 么 什么 是 湿 件 ( Wetware)? 

湿 件 具有 额外 的 生物 学 或 生物 学 界面 能 力 ， 目 前 已 在 科幻 小 说 中 出 现 过 。 然 而 ， 人 们 已 经 
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进行 了 数 十 年 的 使 用 电子 传感器 和 刺激 器 与 大 脑 和 神经 系统 的 直接 连接 的 实验 。 例 如 盲人 的 视 
力 系统 〈 自 20 世纪 70 年 代 以 来 开始 研究 ) ， 以 及 听力 受 损 者 的 耳蜗 植 和 信物 (20 世纪 90 年 代 
出 现 ) 。 它 不 需要 大 量 的 想象 力 来 设计 一 种 以 “ 协 处 理 器 ”的 方式 连接 计算 机 单元 和 大 脑 的 
接口 。 

尽管 有 了 数 十 年 的 努力 ， 人 类 还 没有 聪明 到 能 发 明 一 种 可 以 接近 人 类 大 脑 计 算 能 力 的 计算 
机 ， 当 然 在 已 经 设 定 了 任务 的 快速 计算 的 单一 领域 ， 或 者 在 固定 且 简单 的 任务 中 进行 计算 的 情 
况 除外 ， 例 如 下 棋 。 

在 几乎 所 有 竞争 领域 ， 当 然 还 有 灵活 性 领域 ， 人 类 大 脑 最 终 都 会 获胜 。 由 于 人 自然 而 然 就 
拥有 如 此 惊人 的 计算 机 器 ， 研 究 人 员 长 期 以 来 一 直 试 图 在 硅 或 者 生物 处 理 器 中 模仿 或 复制 大 脑 
的 这 些 能 力 。 

研究 人 员 已 经 证 明了 能 使 用 生物 和 化 学 以 及 生物 或 化 学 构建 模块 来 进行 计算 。 一 种 可 能 基 
于 人 类 大 脑 的 结构 的 类 似 人 工 生物 计算 机 的 东西 ， 在 人 工 生物 神经 元 上 进行 信息 处 理 ， 它 并 不 
超出 现 有 科学 的 范畴 。 生 物 晶 体 管 的 概念 〈 受 控 开 关 ) 已 经 在 实验 室 中 得 到 证 明 ， 因 此 可 以 
得 知 现代 计算 的 二 进 制 逻辑 基础 ， 在 生物 系统 中 是 可 能 实现 的 ， 但 是 ， 新 结构 可 能 更 适合 于 生 
物 计算 ， 而 不 是 简单 地 将 与 硅 一 起 使 用 的 方法 复制 到 生物 学 构造 中 。 

就 个 人 而 言 ， 作 者 对 自己 的 大 脑 非常 满意 ， 但 随 着 未 来 的 自然 发 展 ， 可 能 会 出 现 为 包括 学 
习 障 碍 或 记忆 丧失 的 残疾 人 开发 的 人 工 神经 辅助 设备 。 这 种 辅助 设备 可 以 采取 多 种 形式 ， 可 能 
包括 含有 更 高 带宽 的 计算 机 ， 适 用 于 台 真 的 游戏 ， 有 记忆 存储 和 回忆 单元 ， 以 及 包含 超出 视 
觉 、 听 觉 、 嗅 觉 、 触 觉 和 味觉 的 这 五 种 自然 感官 的 新 感官 。 一 旦 解决 了 大 脑 兼 容 界 面 的 基本 问 
题 ， 制 造 这 种 设备 的 可 能 性 是 非常 大 的 ， 但 真正 的 先进 之 处 在 于 可 以 使 用 人 工 的 全 生物 的 计算 
机 来 增强 人 们 的 大 脑 (这 至 少 意味 着 不 必 随 身 携带 电池 )。 


12.7 小 结 


本 章 试图 探索 计算 机 未 来 的 发 展 深度 。 从 一 些 相 当 安全 的 部 分 开始 一 一 单 比特 架构 ， 并 行 
和 异步 系统 (是 安全 的 ， 尽 管 大 多 数 技术 都 主要 局 限于 一 个 或 两 个 小 众 应 用 ,但 它们 都 是 被 证 
实 了 的 ) 。 并 行 处 理 显然 是 计算 行业 未 来 的 发 展 进程 : 随 着 双核 、 四 核 和 八 核 处 理 器 的 广泛 应 
用 ， 不 难以 想象 这 种 趋势 将 会 朝 着 更 大 的 并 行 性 迈进 。 大 规模 并 行 计算 也 是 一 个 安全 的 选择 ， 
因为 我 们 大 多 数 人 都 享受 着 并 行 计算 带 给 世界 的 好 处 ， 例 如 谷歌 、 亚 马 逊 等 公司 使 用 并 行 计 算 
所 提供 的 服务 ， 越 来 越 融和 人 我 们 的 日 常生 活 。 

本 章 还 概述 了 替代 数字 格式 ， 以 及 显著 渗透 到 小 众 计算 领域 的 另 一 类 技术 ， 它 也 有 可 能 影 
响 未 来 的 主流 计算 。 除 此 之 外 ， 还 谈 到 了 电光 混合 的 技术 ， 尽 管 它 在 技术 上 已 经 可 行 ， 但 尚未 
对 计算 机 世界 产生 重大 影响 。 

最 后 ， 关 于 科幻 小 说 ， 坦 白地 说 ， 科 幻 小 说 是 导致 许多 学 者 从 事 科 学 和 工程 研究 的 第 一 
步 。 无 论 是 《神秘 博士 》 的 音速 起 子 和 TARDIS，《 星 际 迷 航 》 企 业 号 的 相 量 阵列 和 传输 器 ， 
还 是 星球 大 战 中 的 机 器 人 和 光 剑 ， 大 多 数 科 学 家 和 工程 师 都 受到 科幻 小 说 技术 的 强烈 冲击 。 让 
我 们 尝试 并 保留 这 种 “ 酷 ” 的 技术 元 素 ， 并 激励 后 代 。 

而 今 ， 通 过 将 我 数 十 年 的 工作 经 验 、 教 育 学 识 和 研究 写 到 纸 上 ， 是 我 该 递交 接力 棒 的 时 候 
了 。 经 过 了 一 年 的 笔耕 ， 当 我 坐 下 来 放松 时 ， 期 待 着 你 来 创造 嵌入 式 、 普 适 、 并 行 和 高 级 计算 
系统 的 未 来 。 

尽管 你 可 以 而 且 肯 定 会 在 未 来 几 年 中 在 计算 系统 领域 取得 巨大 的 进步 ， 但 不 要 忘记 偶尔 阅 
读 具 有 天 才 想 象 力 的 科幻 小 说 ， 以 激发 起 你 的 灵感 ， 研 发 出 真正 意义 上 的 具有 革命 性 的 技术 。 

未 来 即将 开启 。 





521 


附录 A | 


Computer Systems: An Embedded Approach 


标准 内 存 大 小 表示 方法 





大 多 数 人 在 学 校 里 学 的 是 国际 单位 制 (System International，SI) ， 以 10 的 短 次 方 来 表示 单 
位 的 量 级 。 例 如 ，1 毫米 是 10” 米 ,1 厘米 是 10““ 米 ,1 千 米 是 10 ` 米 。 以 下 是 一 些 普遍 使 用 的 
量 级 : 








量 级 名 称 量 级 字母 乘 子 
exa BE 108 
peta P 1055 
tera T 10% 
giga G 10? 
mega M 105 
kilo k 103 
milli m | 10r3 
micro | 10 
nano n 0 
pico p 10 -2 








但 是 当 以 2，4，8，16，32，64 的 规律 设计 计算 机 存储 器 的 大 小 时 ，SI 的 表示 方法 将 变 得 
不 方便 和 混乱 。 

实际 上 ， 2" 等 于 1024， 在 流行 的 用 法 中 ，1KB 实际 上 是 1024B ， 而 不 是 SI 中 定义 的 1000。 
虽然 这 种 差异 在 日 常生 活 中 带 来 的 影响 并 不 明显 ， 但 在 许多 情况 下 必须 表示 得 更 加 精确 。 

因此 ， 国 际 电工 委员 会 〈IC) 为 计算 机 数据 的 存储 引入 了 一 组 新 的 、 无 歧义 的 术语 ， 新 
的 术语 和 SI 类似， 但 是 与 SI 并 不 相同 。 在 计算 机 适用 的 大 小 范围 内 ， 这 些 量 级 如 下 所 示 : 











一 个 容量 为 1 Tibyte (tebibyte) 的 计算 机 硬盘 实际 上 包含 1 099 511 627 776 字 节 ， 比 一 个 
容量 为 1 Tbyte (terabyte) 的 硬盘 容量 (1 000 000 000 000 000 字 节 ) 多 约 10% 。 

本 书 中 的 还 C 也 已 被 EE 和 其 他 机 构 批准 ， 可 在 适当 的 地 方 使 用 。 

示例 : 

128 Kibyte 





128 KiB 
128 kibibyte 
均 表 示 128 x2" =131 072 byte 


20 Mibyte 

20 MiB 

20 mebibyte 

均 表示 20 x2” =20 971 520 byte 


500 Pibyte 

500 PiB 

500 pebibyte 

均 表示 500 x2” =562. 96 x 105 byte 


标准 内 疮 大 小 表示 方法 
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附录 了 | 
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标准 逻辑 门 


数字 逻辑 中 使 用 的 标准 门 及 其 真 值 表 (X 表示 输出 ，A 和 B 为 输入 ) 如 下 所 示 ， 其 中 异 或 
门 可 以 缩写 为 EOR 或 XOR。 


逻辑 门 图 例 类 | 政 小 艺 





AND 








OR 


OS 








0 
A 0 

EOR/XOR  B ) > | 
1 

NOT A 十 六 | l 

1 0 


一 一 



































非 门 (NOT) 可 以 与 任何 其 他 逻辑 门 组 合 ， 例 如 下 面 的 NAND 和 NOR 门 分 别 是 对 AND 和 
OR 取 非 值 。 

逻辑 门 图 例 太 | 蕊 | 以 

0 0 l 

A 0 1 1 

NAND B 了 六 4 1 6 

1 1 0 

0 0 1 

A 0 1 0 

NOR ~ ] > | 

] 1 0 














索 


引 


注意 : 页 码 后 跟 f、t 或 n 分 别 代 表 数 字 、 表 格 或 脚注 。 索 引 中 的 页 码 为 英文 原版 书 的 


页 码 ， 与 书 中 页 边 标注 的 页 码 一 致 。 


A 


AAPCS， 见 ARM Architecture Procedure Call Standard 
ABI， 见 Application Binary Interface 
Absolute address (绝对 地 址 ) ，93 
Access efficiency，for cache memory (缓存 访问 效 
率 )，155 
ACK protocol (ACK 协议 ) ，449-451 
TCP (TCP) ，484 
Acorn Computers Ltd ( 橡 子 计算 机 有 限 公 司 ) 
Archimedes of ( 阿 基 米 德 ) ，82 
BBC and, 82-83 
RiscPC by, 9-10, 10f, 82 
Actel, 366 
Ad hoc 
networking (联网 ) ，457-458 
scheduling (调度 ) ， 272 
ADCs， 见 Analog-to- digital converters 
ADD, 134 
addressing modes and ( 寻 址 模式 )，100-101 
ARM and, 84 
with asynchronous processors (使 用 异步 处 理 器 )， 
506 
control unit and (控制 单元 ) ，74，77 
dual- bus architecture and 〈( 双 总 线 体系 结构 ) ，130 
RPN and ( 逆 波 兰 表 示 法 ) ，101 
Addition (加 法 器 ) ，32-34，32f，38 
ALU for (算术 逻辑 单元 ) ，21 
bit- serial ( 比特- 串 ) ，494-495 ，494f，495f 
of IEEE754 ( 二进制 浮 点 数 算术 标准 ) ，59-62 
Address handling (地 址 处 理 ) ，204-207，207f 
Address resolution protocol ( ARP) (地 址 解析 协 
议 ) ，485-486 
Address translation cache (ATC) (地 址 转换 高 速 组 
存 ) ，142 
Addresses (地 址 ) ，93 ， 见 Internet Protocol; Media 


access controller 


for DRAM (动态 随机 存 取 存 储 器 ) ，318- 321， 
318f，320f 
LO, PCI and, 265 
modes of (模式 ) ，97-101 
for networking (网 络 ) ，452-453 
offset for ( 偏 移 量 ) ，90，187 
virtual ( 虚拟) ，21-22 
ADSP21xx, 20, 71, 84, 95, 125n2 
addressing modes and ( 寻 址 模式 ) ，99 
buses and (总 线 ) ，124-127，126f 
cache memory and (cache 存储 器 ) ，155 
DAGs for，204-207 ，207f 
registers and (寄存 器 ) ，99 
VLIW of ( 超 长 指令 集 架构 )，249 
ZOL for (和 零 开销 循环 ) ，202-206 
Advanced interrupt controller ( AIC), 280 
Advanced microcontroller bus architecture ( AMBA) 
(高 级 微 控 制 总 线 体系 ) ，255，261 
Advanced RISC Machine (先进 的 RISC 机 器 ) ，82 
Advanced Technology Attachment ( ATA) (高 级 技 
术 附 件 ) ，329 
AHB， 见 ARM host bus 
AIC， 见 Advanced interrupt controller Altera Nios 工 
(高 级 中 断 控制 器 ) ，366 
ALU， 见 Arithmetic logic unit 
Amazon Echo，11，11f 
AMBA ， 见 Advanced microcontroller bus architecture 
Ambient intelligence (环境 智能 ) ，236 
AMD ( 超 微 半 导体 公司 ) ，14 
performance of (性 能 ) ，115 
Phenom, 294, 294f 
3DNow! of, 160, 164 
Amdahl s law (Amdahl 定律 ) ，234 
American Standard Code for Information Interchange 
(ASCII) (美国 标准 信息 交换 码 ) ，105，106t 
AMULET, 507-508, SO9f 
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Analog Devices (美国 模拟 器 件 公 司 ) ， 见 ADSP21xx 
Analog-to- digital converters (ADCs) (模拟 - 数字 
转换 器 ) : 
RE of (逆向 工程 ) ，346 
of Samsung S3C2410 ，292 
Analytical Difference Engine (差分 机 ) ，1，1f，4 
AND, 523 
ALU for (算术 逻辑 单元 )，21，134 
ARM and, 85, 91 
control unit and (控制 单元 ) ，77，79 
CPUs pipelines and (CPU 流水 线 ) ，189 
soft core processors and ( 软 核 处 理 器 ) ，362 
Android : 
embedded systems for，( 舱 入 式 系 统 ) ，395 
shell ，384 
smartphones with，( 智 能 手机 ) ，393 
Anycasting ( 任 播 ) ，478 
APB， 见 ARM peripheral bus 
APCS， 见 ARM procedure call standard 
API， 见 Application programming interface 
Apple ( 荣 果 公司 ) 
Firewire (和 硬件) ，268 
iMac, 10, 11f 
i0S，embedded systems for (网 入 式 系统 )，395 
iPhone, 11 
iPod，306 
MacOS, 393, 394 
dual-booting of (双重 启动 ) ，420 
Application Binary Interface (ABI) (应 用 程序 二 进 
制 接口 ) ，376n2 
Application layer (应 用 层 ) ，465-466 
Application programming interface (API) (应 用 程 
序 编 程 接口 ) ，400n3 
Application- specific isolated circuit ( ASIC) (专用 
集成 电路 ) ，15 
DMC and (数字 微型 电路 ) ，358 
RE for (逆向 工程 ) ，346，350，356-357 
Arbitration ，for networking (仲裁 ,用 于 网 络 )， 
451-452 
Arithmetic (算数 运算 )，31-37. 见 Addition ; 
Subtraction (减法 ) 
with fractional numbers (小 数 ) ，47-48 
for IEEE754 (二 进 制 浮 点 数 算术 标准 ) ，59-62 
Arithmetic logic unit (ALU) (算术 逻辑 单元 )， 
21,. 31-37; 70, 133f, 135f 
addressing modes and ( 寻 址 模式 ) ，99-100 


for asynchronous processors (异步 处 理 器 )，506-507 

branch prediction for (分 支 预 测 ) ，209 

BTB for, 224 

buses and (总 线 )，124，124f, 125, 125f，126f, 
129-132 ，129f{，130f，132f 

clock speed of (时 钟 速 度 ) ，113 

clocks and (时 钟 ) ，298-300 

control unit and (控制 单元 )，74, 77 

design of (设计 ) ，133-134 

fetch and ( 取 指 )，209n5 

functionality of (功能 ) ，113 ，132-133 

hardware acceleration and (硬件 加 速 器 ) ，201 

MMX and (多 媒体 扩展 ) ，164 

offset and ( 偏 移 ) ，224 

programming for (编程 ) ，371 

propagation delays (传输 延迟 ) ，134-136 

registers of ( 寄存器) ，21，298 

relative branching and (相对 地 址 分 支 ) ，187-188 

RPN and ( 逆 波 兰 表 示 法 ) ，101 

superscalar architectures and (超标 量 体 系 结构 ) ， 
194, 194f 

Tomasulo " s algorithm for (Tomasulo 算法 ) ，240 

VLIW and，246-250 

ARM, 5, 14, 71 

addresses and (地 址 ) ，93 

addressing modes and ( 寻 址 模式 ) ，97-101 

AMBA ，261 

bit width of (位 宽 ) ，113-114 

boot vector of ，( 引导 扇 区 ) ，371 

booting on (启动 )，405 

branching and (分 支 ) ，92-93 ，374 

buses and (总 线 ) ，123 ，124 ，255 

cache memory and (cache 存储 器 ) ，145 

condition codes in (条 件 码 ) ，91-92 

CPI for (每 条 指令 周期 数 ) ，114 

CPUs and, 82-86 

CPUs pipelines and (CPU 流水线) ，178 

cross-compiling (交叉 编译 ) ，379-380 

DAG for, 204 

data processing by (数据 处 理 ) ，109 

data types and (数据 类 型 和 ) ，103 

DCP of，231-232，232f 

design of (设计 ) ，83 

DMA and, 257 

embedded systems coprocessors and (众人 入 式 系 统 
协 处 理 器 ) ，165 
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emulation by (仿真 )，380 
in fourth- generation computers (第 四 代 计 算 机 )，9 
FPU on ( 浮 点 运算 单元 ) ，160 
Huffman coding and ( 赫 夫 曼 编码 ) ，95-97 
IBM and，83 
IFU and ( 取 指 和 译 码 单元 ) ，88-95 
immediate constant and (立即 数 ) ，93-95 
instruction sets and (指令 集 ) ，87-89，88f，91 
interrupts of, 273, 275, 276, 277-278, 279, 280 
in iPhone, 11 
JTAG for (调试 接口 )，333，334f，335 
LR of (链接 寄存 器 ) ，375 
memory of ( 内存) ，372-373 ，373f 
for embedded systems CPUs ( 嵌 人 式 系统 CPU ) ， 
323-324，325f 
microcode and ( 微 指令 ) ，81 
ARM (Cont.) 
mobile multiprocessing and (移动 多 处 理 ) ，238 
MOV and, 93-94 
multiplication and (乘法 ) ，37 
NOT and, 85n5 
registers and (寄存 器 ) ，99，124 
relative branching and (相对 地 址 分 支 ) ，187 
RISC and 〈 精 简 指 令 集 计算 机 ) ，82 
Samsung S3C2410 for，291-292 
soft core processors for ( 软 核 处 理 器 ) ，359 
SWI and，281-282 
VFP and ( 浮 点 向 量 ) ，166 
ARM Architecture Procedure Call Standard ( AAPCS) 
(Arm 结构 过 程 调用 标准 ) ，376n2 
ARM host bus (AHB) (ARM 主线 ) ，255 
ARM peripheral bus (ARM 外 设 总 线 ) ，261 
ARM procedure call standard ( APCS) (ARM 进程 
调用 标准 ) ，376 ，376n2 
ARP， 见 Address resolution protocol 
ARPANET ( 阿 帕 网 ) ，462 
ASCII， 见 American Standard Code for Information In- 
terchange 
ASIC， 见 Application- specific isolated circuit 
ASR， 见 Automatic speech recognition 
Assembly language (汇编 语言 ) ，20f，74，373 ，376 
interpreted languages and (解释 型 语言 ) ，382 
Asynchronous processors (异步 处 理 器 ) ，505-508 ， 
508f，509f 
data flows in (数据 流 ) ，$07-508 
pipelines and (流水 线 ) ，508 


ATA ， 见 Advanced Technology Attachment 
Atanasoff- Berry machine ( Atanaoff- Berry 机 器 ) ，4 
ATC， 见 Address translation cache 
ATMEL，260，311 
Automatic speech recognition ( 自动 语音 识别 ) ，237 
Automobiles (汽车 ) ，69-70 
Availability (可 用 性 ) 

of OS (操作 系统 ) ，394 

of soft core processors ( 软 核 处 理 器 ) ，361 
awk (一 种 编程 及 数据 操作 语言 )，387-388 

B 


Babbage, Charles, 1, lf, 4 
Baby (SSEM), 5 
Backup system, 431-433 
Backward compatibility ( 向 后 兼容 性 ) : 
of CPUs, 79, 79n4 
of Intel Pentium (Intel 奔腾 处 理 器 ) ，163 
of third-generation computers (第 三 代 计 算 机 )，9 
Ball grid array (BGA) ( 球 栅 阵 列 ) ，329 
JTAG for (调试 接口 ) ，335 
RE for〈 逆 向 工程 ) ，348 
Bandwidth (带宽 ) ，442 
Barcelona Supercomputer Center (巴塞 罗 那 超级 计 
算 机 ) ，12，13f 
Barriers (屏障 ) ，of FS (文件 系统 ) ，423 
Bash， 见 Bourne again shell 
BASIC， 见 Beginner’ s All- purpose Symbolic Instruc- 
tion Set 
Basic blocks (基础 模块 ) ，225-227，226f 
Basic input output stream (BIOS) (基础 输入 /输出 
流 ) ，20-21 
HDD and，419 
ISA and，263 
programming for (编程 ) ，371 
BBC， 见 British Broadcasting Corporation 
BCD， 见 Binary- coded decimal 
BDTi，115-116 
Beginner s All- purpose Symbolic Instruction Set (BAS- 
IC) 〈 初 学 者 的 通用 符号 指令 集 ) ，82，115 
Bell Labs (贝尔 实验 室 ) ，4-5 
BEQ (检查 分 支 指令 )，374 
BCA， 见 Ball grid array 
BCT， 见 Branch if condition flags greater than 0 
BGTD, 189 
Big endian (大 尾 端 ) ，22-25 
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Big. LITTLE, 238-239,239n13 
Bill of materials (BOM)，for RE (材料 清单 )， 
347-348 
Binary-coded decimal (BCD), 29 
Binary logic ( 二进制 逻 辑 )，7 
Binary16 (16 位 )，50 
Binary32 floating point (32 位 浮 点 数 ) ，50 
Binary64 floating point (64 位 浮 点 数 ) ，50 
Binary128 (128 位 ) ，50 
Binary256 (256 位 ) ，50 
BIOS， 见 Basic input output stream 
BIST， 见 Built-in self-test 
Bit-level parallelism (bit 级 并 行 ) ，228 
Bit- serial addition (位 串 行 加 法 )，494- 495， 
494f，495f 
Bit- serial logic and processing (位 串 行 还 辑 和 处 
理 ) ，496-497 
Bit- serial subtraction (位 串 行 减法 ) ，495-496 ，496f 
Bit widths ，of CPUs ( CPU 的 位 宽 ) ，113-114 
BL， 见 Branch and link 
Black box (黑匣子 ) ，103n10 ，107 
Bluetooth (蓝牙 ) ，237，437，488 ，488n10 
BLVDS， 见 Bus LVDS 
BODMAS, 101n9 
Bogomips, 114 
BOM， 见 Bill of materials 
Boot vector (引导 扇 区 ) ，371 
Booth s method ，for multiplication ( Booth 的 方法 ， 
用 于 乘法 ) ，42-44，42t 
Booting (启动 ) ，374 
flash memory and (闪存 ) ，325 ，406-407，407f， 
408f 
from HDD (硬盘 驱动 )，405- 406，408- 409 ， 
420-421 
JTAG for, 335 
kernel for，for embedded systems CPUs (知人 系 
统 的 CPU) ，325-326 
from NV ( 非 易 失 ) ，325-327 
OS and (操作 系统 ) ，405-410 ，407f，408f 
from SSD (固态 硬盘 ) ，405-406 ，408-409 
Bootloader (引导 加 载 程序 ) ，405 
memory and (内 存 ) ，279-280 
Boundary scan data (BSD) (边界 扫描 数据 ) ，335 
Boundary scan data logic ( BSDL) (边界 扫描 逻辑 )， 
335 
Bourne again shell (bash), 384 





Branch and link ( BL) (分支 与 链接 )，375 
Branch if condition flags greater than 0 (BGT) (如 
果 条 件 标志 位 大 于 0 则 分 支 )，183- 184， 
186, 374 
Branch target buffer (BTB) (分 支 目 标 缓冲 ) ，224- 
227, 224f, 225f 
Branching (分 支 ) 
ARM and, 92-93, 374 
interrupts (中 断 ) ，276-278 
for pipelines (流水 线 ) ，183-185 
prediction of (预测 )，185，208- 227，213f， 
215f, 218f, 220f-226f 
relative (相对 )，187-188 
British Broadcasting Corporation (BBC) (英国 广播 
公司 ) ，92-93 
Brownout detectors ( 掉 电 探测 器 ) ，341-343 ，342n6 
BSD， 见 Boundary scan data 
BSDL， 见 Boundary scan data logic 
BTB ， 见 Branch target buffer 
Buffers (缓冲 区 ) 
BTB and, 224-227, 224f, 225f 
control unit and (控制 单元 )，74,， 74f 
MOB, 294 
ROB, 294 
TB (转换 缓存 器 ) ，142 
tristate (三 态 ), 21, 75, 75n3, 77 
Built-in self-test (BIST) (内 置 自 测试 ) ，331-333， 
331f, ,3324 
Burst mode，for EDO DRAM ( 突 发 模式 )，321 
Bus LVDS (BLVDS), 266 
Buses， 见 specific types 
ALU and, 21, 129-132, 129f, 130f, 132f 
architecture of (体系 结构 )，123-132，124f- 126f， 


128f-131f 

ARM and, 255 

in computer organization (在 计算 机 组 织 中 )， 
17-18 


control signals of (控制 信号 ) ，256-257 

control unit and (控制 单元 ) ，74-75 ，74f，77 

DMA and, 257-258 

DSP and (数字 信和 号 处 理 ) ，125 ，127-128 ，128f 

dual architecture for bus (双重 总 线 架 构 )，129- 
130 ，129f 

for embedded systems CPUs ( 骨 人 式 系统 CPU ) ， 
295 

on ICs, 257 
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pin swapping of ( 引 脚 交换 ) ，352-353 
instruction sets and (指令 集 ) ，193 
registers and (寄存 器 ) ，22 

Busy wait loop 〈 忙 等 待 循环 ) ，306 
BYPASS ( 跳 过 指令 ) ，334 

Byron, Ada, 4 

Bytes ( 字 节 ) ，107 


C 
C (programming language) (一 种 编程 语言 ) ，380 
compilers (编译 器 ) ，377，377f，378f 
data types for (数据 类 型 ) ，103 ，105 
for embedded systems CPUs ( 骨 和 人 式 系统 CPU ) ， 
366 
internal data and (内 部 数据 ) ，108 
interrupts and (中 断 ) ，276 
Linux and，143 
MMU and (内 存 管 理 单元 ) ，140 
registers and (寄存 器 ) ，327 
trapping software errors in (追踪 软件 错误 ) ，143- 
144 
ZOL and ( 零 开 销 循环 ) ，203-204 
C++ (computer language) (计算 机 语言 )，104， 
367，380 
for embedded systems CPUs (散人 入 式 系 统 CPU ) ， 
366 | 
C (carry) flag (标志 寄存 器 ) ，36-37 
for pipelines ( 流水线) ，182 
C-shell (csh), 384 
Cache memory ( cache 存储 器 ) ，144- 158，151f， 
156f, 157f 
access efficiency for (访问 效率 ) ，155 
coherency of (一 致 性 ) ，156-158 
for data storage (数据 存储 ) ，108 
direct (直接 相 联 ) ，146-148 
for embedded systems CPUs ( 骨 入 式 系统 CPU ) ， 
297 
full-associative (全 相 联 )，149 
locality principles for (局 部 性 原则 ) ，149-150 
performance of (性 能 ) ，154-156 
replacement algorithms for (替换 算法 ) ，150-154 
set-associative (组 相 联 ) ，148-149 
spatial locality for (空间 局 部 性 ) ，149-150 
speed of (速度 ) ，116 
temporal locality for (时 间 局 部 性 ) ，149-150 
Calling process ，for programs (调用 进程 ) ，375-376 





Cambridge University (剑桥 大 学 ) ，5，80 ，92 
WAN at (广域网 ) ，462 
CAN， 见 Controller area network 
Canonical signed digit (CSD) (规范 的 带 符号 数 )， 
512-513 
Carrier sense (CS) (载波 侦 听 ) ，473-474 
Carry predictors (进位 预测 ) ，34，34f 
Catastrophic errors (灾难 性 错误 ) ，401 
CCR， 见 Condition code register 
CD， 见 Collision detection 
CDB， 见 Common data bus 
CDC6000, 7 
Cell processor (单元 处 理 器 ) ，234-235 
Central processing units (CPUs) (中 央 处 理 器 )， 
15，21，21nl ， 见 specific components 
ARM and，82-86 
as asynchronous processors (作为 异步 处 理 需 )， 
505-508, 508f, S509f 
in automobiles (在 汽车 中 ) ，69-70 
backward compatibility of ( 反 向 兼容 性 )，79， 
79n4 
basics (基础 ) ，69-119 
bit widths of (位 宽 ) ，113-114 
clock speed of (时 钟 速 度 ) ，113 
in computer organization (在 计算 机 组 织 )， 
17、 20 
control unit and (控制 单元 ) ，74-79 ，74 人 -78f 
data handling by (数据 处 理 ) ，102-112 
for embedded systems 〈 失 人 式 系统 ) ，291-368 
brownout detectors for ( 掉 电 探测 器 ) ，341-343 
clocks for，( 时 钟 ) ，298-306 ，299t，300f 
DRAM for (动态 随机 存 取 存 储 器 ) ，315-321 ， 
316f-318f，320f 
error handling for (错误 控制 )，336- 343， 
337f, 339f, 342f, 343f 
flash memory for (闪存 )，298，307，309- 
313, 313f 
hardware software codesign for ( 软 硬 件 协 同 设 
计 ) ，363-365 ，363n11 ，364f，366f 
LO for, 295, 329-330 
memory for ( 内存)，295，306-321，323-328， 
324f 
memory pages for (内存 分 页 ) ，321-323 
MMU for ( 内存 管理 单元 ) ，321-323 
off-the-shelf (商用 ) ，365-367 
OS for (操作 系统 ) ，323 
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RAM for (随机 存 取 存储 器 ) ，314-321 
RE for (逆向 工程 )，343-358 ，345f，346f， 
349t, 356t, 357t 
required functionality for ( 所 需 功 能 ) ，295-298 
reset supervisors for (复位 监测 器 ) ，341-343 ， 
342f, 343f 
ROM for (只 读 存 储 器 ) ，298 ，307-313 ，308f 
as soft core processors ( 软 核 处 理 器 ) ，358-363 
SRAM for (静态 随机 存储 器 ) ，314-315 ，315f 
test and verification of (测试 与 验证 )，328- 
336, 329f-332f,334f 
volatile memory for ( 易 失 存储 器 ) ，327-328 
WDTs for (看 门 狗 定 时 器 ) ，340-341 
externals of ( 外 部 总 线 ) ，255-285 
in fourth- generation computers (第 四 代 计 算 
机 )，9 
functionality of (功能 ) ，113 
hardware acceleration and (硬件 加 速 器 ) ，201- 
208 ，203f，207f 
IFU and ( 取 指 和 译 码 单 元 ) ，88-95 
instruction handling by (指令 处 理 ) ，86-102 
internals of (内 部 )，123-167 
interrupts and (中 断 ) ，269-270 ，273-282 
IPC for (每 周期 指令 数 ) ，198-201 
memory hierarchy and (存储 架构 ) ，71-72，72f 
memory in (存储 ) ，114 
microcode and ( 微 指 令 ) ，79-81，80f 
multiplication and (乘法 ) ，37 
OS and (操作 系统 ) ，393 ，411-413 
performance of (性 能 ) ，114-118，173-250 
pipelines of (流水 线 ) ，174- 192，175f，177f， 
178f, 180f, 184f, 190t, 191f, 192f 
power for (供电 ) ，301-306，302f，305f 
program storage and (程序 存储 )，70-71, 71nl 
program transfer and (程序 传输 ) ，73-74 ，73n2 
registers and (寄存 器 ) ，22 
OE manager for (资源 管理 器 ) ，396 
RISC and (精简 指令 集 计 算 机 )，21 
speedups for (加 速 ) ，174 
superscalar architectures for (超标 量 体 系 结构 ) ， 
194-198 ，194f，195t，198f 
in third- generation computers (第 三 代 计 算 机 ) ，8 
Tomasulo " s algorithm for (Tomasulo 算法 ) ，239- 
246 ，241f，243t，244f，245St 
top-down view of ( 自 项 向 下 的 角度 ) ，113-118 
VM and (虚拟 机 ) ，396-397 


in von Neumann architecture (在 冯 : 诺 依 曼 体系 
结构 中 ) ，19 
CF， 见 Compact flash 
Churchil，Winston (人 名 ) ,，3 
CISC， 见 Complex instruction set computer 
Client- server architecture ( 主 从 架构 ) 
for networking (网 络 ) ，456 ，457f 
for OS (操作 系统 )，402，404-405，405f 
Clock cycles (时 钟 周期 ) ，22 
with asynchronous processors (异步 处 理 器 )， 
506-507 
CPUs pipelines and (CPU 流水 线 ) ，175 
of RISC and CISC (精简 指令 集 计 算 机 和 复杂 指 
令 集 计算 机 )，81-82，81f 
SDRAM and (同步 动态 随机 存 取 存储 器 ) ，321 
superscalar architectures and (超标 量 体 系 结构 )， 
194 
Clock speed (时 钟 速度 ) 
in computer organization (计算 机 组 成 )，18 
of CPUs, 113 
for DRAM, 316 
propagation delay and (传播 延 时 ) ，303 
speedups for (加 速 ) ，174 
Clocks (时 钟 ) 
for asynchronous processors (异步 处 理 器 ) ， 
505-506 
for embedded systems CPU (嵌入 式 系统 CPU ) ， 
298-306 ，299t，300f 
power and (供电 ) ，301-306 ，302f，305f 
for SoC (片上 系统 ) ，298-306 ，299t，300f 
Cloud computing，235 ，237 
OS for (操作 系统 ) ，395 
Cluster computers ，235 
OS for (操作 系统 ) ，395 
CMOS， 见 Complementary metal- oxide semiconductor 
Co-simulation ，for hardware software codesign ( 软 硬 
件 协同 设计 中 的 协同 仿真 ) ，365 
Co-synthesis ，for hardware software codesign ( 软 硬 
件 协 同 设计 中 的 协同 合成 ) ，365 
COBOL (面向 商业 的 通用 语言 ) ，380 
Coherency，of cache memory (cache 一 致 性 ) ，156- 158 
Collision detection (CD) (冲突 检测 ) ，473-474 
Colossus，3-4，4f，7 
Column address strobe (nCAS) ( 列 地 址 开关 )， 
318, 318f 
Common data bus (CDB) (常规 数据 总 线 )，241- 
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242, 241f, 245t 
Compact flash (CF), 268, 312 
Compile time (编译 时 间 )，pipelines and (流水 
线 ) ，185-186 
Compilers (编译 器 ) ，49，86 
linkers and (链接 器 ) ，377-379，378f，379f 
for programs (程序 ) ，377-381 ，377f-379f 
VLIW and ( 超 长 指令 集 架 构 )，250 
WAW and, 328 
Complementary metal- oxide semiconductor ( CMOS) 
(互补 金属 氧化 物 半 导体 )，301，302f 
for asynchronous processors (异步 处 理 器 ) ，507 
current flow in (电流 ) ，303 
multiple- valued logic for (多 值 逻 辑 ) ，509 
Complex instruction set computer (CISC) (复杂 的 
指令 集 计 算 机 ) ，21，71 
addressing modes and ( 寻 址 方式 ) ，98 ，100 
CPI for (每 条 指令 周期 数 ) ，114 
embedded systems coprocessors and ( 骨 入 式 系统 
协 处 理 器 ) ，166 
instruction sets for (指令 集 ) ，193 
IPC for (每 周期 指令 数 ) ，198 
vs，RISC (精简 指令 集 计 算 机 ) ，81-83 ，81f 
soft core processors and ( 软 核 处 理 需 ) ，360 
speedups for (加 速 ) ，174 
Complex numbers (复数 ) ，112，112nl13 
Compressed instruction sets (压缩 指令 集 ) ，95-97 
Computer generations (计算 机 的 发 展 阶段 ) ，5-11 
first (第 一 代 ) ，6-7 
second (第 二 代 ) ,7-8 
third (第 三 代 )，8-9 
fourth (第 四 代 )，9-10 
fifth (第 五 代 )，10-11 
Computer organization (计算 机 组 成 ) ，17-21 ，20f 
Concurrency (并 发 ) ，0S and (操作 系统 ) ，411-413 
Condition code register (CCR) ，( 条 件 代码 寄存 器 ) ， 
3745 375 
Condition codes ，in ARM (条 件 代 码 , 在 ARM 中 ) ， 
91-92 
Conditional flags ，for pipelines (流水 线条 件 标 志 
位 ) ，181-183 
Console，UNIX (控制 台 ) ，383 
Control packets (控制 包 ) ，452 
Control signals ，of buses (总 线 控制 信号 ) ，256-257 
Control unit (控制 单元 ) ，74-79 ，74f-78f 
Controller area _ network (CAN) (控制 器 区 域 网 


络 ) ，70，260 
PPU for (并 行 处 理 单元 ) ，499 
Coprocessors ( 协 处 理 器 ) ，21，87，158-159 
for embedded systems ( 舱 入 式 系统 ) ，165-166 
Cortex devices (Cortex 设备 ) ，88 
Counter registers (计数 器 ) ，214 
CP/M, in fourth- generation computers (CP/ M， 第 
四 代 计 算 机 ) ，9 
CPI， 见 Cycles per instruction 
CPU time (CPU 时钟)，397-398，398f 
CPUs， 见 Central processing units 
CRC， 见 Cyclic redundancy check 
Cross-compiling (交叉 编译 ) ，379-380 
CS， 见 Carrier sense 
CSD， 见 Canonical signed digit 
Csh， 见 C-shell 
Current fow (电流 ) ，302 ，303-304 
Cycle-by-cycle timing (周期 级 时 序 ) ，75-76，75f 
Cycles per instruction (CPI) (每 条 指令 周期 数 )， 
114-115 
Cyclic redundancy check (CRC) (循环 元 余 检 验 )， 
446-447 ，446f 
for booting (启动 ) ，406 


D 


DACs， 见 Digital-to- analog converters 
DAGCs， 见 Data address generators 
DARPA ， 见 Defense Advanced Research Projects Agency 
Data abort (数据 异常 ) ，143 
Data address generators (DAGs) (数据 地 址 生成 
器 ) ，204-207，207f 
Data dependency hazard ，for pipelines (流水 线 数据 
相关 冒险 ) ，180-182 
Data flows (数据 流 ) ，107 
in asynchronous processors ( 异步 处 理 器 ) ，507- 
508 power and, 306 
in UNIX, 385-387, 385f-387f 
Data handling (数据 处 理 ) 
by CPUs，103-112 
for internal data (内 部 数据 ) ，108-109 
processing in (在 .…… 中 处 理 ) ，109-112，110f 
storage (存储 ) ，107-108 
Data link layer (DLL) (数据 链 路 层 ) ，454 
Data memory address (DMA) (数据 存储 器 地 址 ) ， 
126-127 
Data output register，of serial ports ( 串 行 单元 的 输 
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出 数据 寄存 器 ) ，328 
Data types (数据 类 型 )，103-107，104t 
ASCII for (美国 标准 信息 交换 码 )，105，106t 
for Ethernet (以 太 网 ) ，470-471 
Data width (数据 宽度 ) ，25 
DCP， 见 Dual core platform 
DDR， 见 Double data rate 
Deadline monotonic _ scheduling (时 限 单 调调 度 )， 
272 
Debugging (调试 ) 
for embedded systems CPUs (由 入 式 系 统 CPU ) ， 
295 
JTAG and (调用 接口 ) ，333 
OS and (操作 系统 ) ，392 
DEC， 见 Digital Equipment Corporation 
Decoding (解码 ) ，445 
Defense Advanced Research Projects Agency ( DAR- 
PA) (美国 国防 高 级 研究 计划 局 ) ，462 
Delay lines (延迟 线 ) ，306 
Delay-locked loop (DLL) (延迟 锁 相 环 ) ，295 ，301 
Delayed allocation ( 延 时 分 配 ) ，422-423 
Delayed branch (延迟 分 支 ) ，188 
Denormalized numbers ( 非 规 格 化 数 )，53- 54， 
56-57 
Device control (设备 控制 ) ，403 
Device manufacture test (设备 生产 测试 ) ，330 
Dhrystone (标准 检测 程序 ) ，116 
Digital Equipment Corporation (DEC) (数字 设备 公 
司 ) 7-8 
Alpha 21264 ，223 
ARM and (ARM), 85 
parity memory for ( 内存 奇 偶 校 验 ) ，336 
StrongARM (StrongARM 处 理 器 ) ，20，85 ，145 
PPU for (并 行 处 理 单元 ) ，498 
VAX (扩展 虚拟 存 取 ) ，275 
Digital filters ，for fractions (数字 滤波 器 ， 用 于 分 
数 ) ，46 ，46n5 
Digital signal processing (DSP) ，( 数字 信号 处 理 ) ， 
29-30 
buses and (总 线 ) ，125 ，127-128 ，128f 
cache memory and (cache 存储 器 ) ，155 
CPUs pipelines and (CPU 流水 线 ) ，178 
fractions and (分 数 ) ，46 
speeds of (速度 ) ，116 
superscalar architectures and (超标 量 体 系 结构 ) ， 
194 





VLIW and, 248, 249 
ZOL and ( 零 开销 循环 ) ，202 
Digital- to- analog converters (DACs) ( 数 模 转换 ) 
DRAM and (动态 随机 存 取 存储 器 ) ，321 
RE of (北向 工程 )，346 
Dijkstra，Edsger (人 名 ) ，413 
DIP， 见 Dual in-line package 
Direct cache (直接 相 联 cache) ，146-148 
Direct memory access (DMA) (直接 内 存 访问 方 
式 )，108 
buses and (总 线 ) ，257-258 
PC/104 standard and (PC/104 标准 ) ，263 
wireless and (无 线 ) ，284 
Directories (目录 ) ，of FS (文件 系统 ) ，428-430 ， 
430f，431f 
Directory look- aside table (DLT) (目录 后 援 表 ) ， 
142 
Disc image (硬盘 图 像 ) ，for booting (启动 ) ，406 
Distributed computing (分 布 式 计 算 ) ，518 
Distributed control (分 布 式 控制 ) ，76 
Division (除法 ) ，44-46，46f 
of fractional numbers ( 分数) ，48-49 
of IEEE754 ，62-63 
DLL， 见 Data link layer; Delay-locked loop 
DLT， 见 Directory look-aside table 
DMA， 见 Data memory address; Direct memory access 
Domain Name Servers (DNS) (域名 服务 器 ) ，479- 
482 ，480f 
Dongarra，Jack (人 和 名) ，14f 
DOS， 见 Microsoft Disk Operating System 
Double data rate (DDR) ( 双 倍 数据 速率 ) ，321 
Double precision ( 双 精 度 ) ，50 
DRAM， 见 Dynamic RAM 
DSP， 见 Digital signal processing 
Dual- booting (双重 启动 ) ，420-421 
Dual- bus architecture ( 双 总 线 结构 )，129- 130， 
129f 
Dual core platform (DCP) (双核 平台 ) ，231-232， 
232f 
Dual in-line package (DIP) ( 双 列 直 插 式 封 装 技 
术 ), 12, 262 
Duplex ( 双 工 ) ，438 
Dynamic pipelines (动态 流水 线 ) ，177-178 ，178f 
Dynamic priority (动态 优先 级 ) ，416 
Dynamic RAM (DRAM) (动态 RAM) ，80 
addresses for (地 址 ) ，318-321，318f，320f 





for embedded systems CPUs ( 欣 入 式 系统 CPU ) ， 
315-321，316f-318f，320f 

fetch by ( 取 指 ) ，117 

RE of (逆向 工程 ) ，346 


及 


FEABI， 见 Embedded ABI 
Earliest deadline first scheduling (最 早 的 时 限 最 先 
调度 ) ，272 
EBR， 见 Extended boot record 
ECCs， 见 Error correcting codes 
EDAC ， 见 Error detection and correction 
EDO， 见 Extended data out 
EDR， 见 Enhanced Data Rate 
EDSAC， 见 Electronic Delay Storage Automatic Cal- 
culator 
EDVAC， 见 Electronic Discrete Variable Automatic 
Computer 
EEPROM ， 见 Electrically erasable PROM 
EFLOP， 见 ExaFLOP 
EIA， 见 Electronic Industries Alliance EIA232 ，267 
EIDE, 见 Enhanced IDE 
EISA， 见 Extended ISA 
Electrical conductivity，RE of (导电 性 ) ，349-350 
Electrically erasable PROM (EEPROM) (可 编程 只 
读 存储 器 ) ，308-309 ，309f 
RE of，prevention of (逆向 工程 ) ，356 
Electro- optic backplane (电光 背光 板 )，515- 
S17 S16f 
Electromagnetic interference (EMI) (电磁 干扰 )， 
285 
current flow and (电流 ) ，304 
electro-optic backplane and (电光 背光 板 ) ，515 
Electronic Delay Storage Automatic 
Calculator (EDSAC) (电子 延迟 存储 自动 计算 
器 ) ，5 
Electronic Discrete Variable Automatic 
Computer (EDVAC) (离散 变量 自动 电子 计算 
机 ), 5 
Electronic Industries Alliance (EIA) (电子 工业 协 
会 jy 267 
Electronic Numerical Integrator and Computer (ENIAC ) 
(电子 数字 积分 计算 机 ) ，3，6，7f 
Embedded ABI (EABI) (嵌入 式 应 用 程序 二 进 制 
接口 ) ，376n2 
Embedded cloud ( 骨 人 式 云 ) ，237 
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Embedded systems， 见 Central processing units 
(CPUs) , for embedded systems 
coprocessors for ( 协 处 理 器 ) ，165-166 
data flows in (数据 流 ) ，107 
data types in，( 数据 类 型 ) 104-105 
OS for，( 操 作 系统 ) ，395 
Tomasulo " s algorithm for (Tomasulo 算法 ) ，245-246 
Embedded wireless connectivity (由 入 式 无 线 连接 )， 
282-285 
EMI, 见 Electromagnetic interference Emulation: 
OS and (操作 系统 )，401 
of programs (程序 ) ，380 
in third-generation computers (第 三 代 计 算 机 ) ，8 
Encapsulation (封装 ) 
for Ethernet (以 太 网 封装 ) ，471-473 ，472f 
for TCP/IP (TCP/IP 封装 ) ，465-469 ，466f 人 -468f 
Enhanced Data Rate (EDR) (增强 速率 ) ，488 
Enhanced IDE (EIDE) (增强 型 IDE) ，263 
ENIAC, 见 Electronic Numerical Integrator and Com- 
puter 
Enigma code (Enigma 编码 ) ，3，7 
EOR， 见 Exclusive-OR gate 
EPIC， 见 Explicitly parallel instruction computing 
Erasable programmable ROM (EPROM) (可 编程 只 
读 存 储 器 ) ，72 ，308-309， 见 Electrically e- 
rasable PROM (可 编程 只 读 存储 器 ) 
JTAG and (调试 接口 ) ，335 
ERC32, 255 
Error correcting codes (ECCs) ( 纠 错 码 )，447-449， 
449f 
Error detection and correction ( EDAC) (误差 检测 
与 校正 ) ，338 ，339f 
Error handling (错误 处 理 ) 
for embedded systems CPUs ( 藤 入 式 系统 CPU ) ， 
336-343 ，337f，339f，342f，343f 
for networking (网 络 ) ，446- 451 ，446f，449f， 
450f OS and, 401 
for wireless technology (无 线 技术 ) ，283 
Ethernet (以 太 网 )，284, 437,，445,，469-474，469f 
CS for (载波 侦 听 ) ，473-474 
data types for (数据 类 型 ) ，470-471 
encapsulation for (封装 ) ，471-473 ，472f 
Everywhere computing (随处 计算 ) ，236 
EX ， 见 Execution unit 
ExaFLOP (EFLOP) (每 秒 百 亿 亿 次 浮 点 运算 速 
度 ) ，14 
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Excess-n ( 移 码 ) ，28-29 
Exclusive-OR gate (EOR，XOR) ( 异 或 门 )，523 
Execute-in-place (XIP) ，( 即 刻 执行 ) ，372 
for Linux，323 
Execution unit (EX) (执行 单元 ) ，191 
Explicitly parallel instruction computing (EPIC) ( 显 
式 并 行 指令 集运 算 ) ，248 
IPC for (每 周期 指令 数 ) ，199 
Extended boot record (EBR) (扩展 引导 记录 )， 
421 
Extended data out (EDO) (扩展 数据 输出 ) ，321 
Extended ISA (EISA) (扩展 ISA) ，261，262 
PCI and，265 
External fragmentation，of MMU (外 部 碎片 ， 内 存 
管理 单元 的 ) ，140-142 
External stimuli (外 部 激励 ) ，269 
EXTEST (外 部 测试 ) ，334 


F 


Fast Fourier transform (FFT) (快速 人 埔里 叶 变 换 ) ， 
206 
Fast interrupt request (FIQ) (快速 中 断 请 求 )， 
277-278 ，280 
FDES， 见 Fetch ，decode，execute，and store 
Ferranti Mark ( 人名) 1, 5 
Fetch, 91 ， 见 Instruction fetch and decode 
ALU and，209n5 
Fetch (Cont. ) 
control unit and (控制 单元 ) ，74，78 
by DRAM (动态 随机 存 取 存储 器 ) ，117 
DSP and (数字 信号 处 理 ) ，128 
MMU (内 存 管理 单元 ) and，143 
PC and, 374 
superscalar architectures and (超标 量 体 系 结构 )， 
194f，197 
Fetch ，decode，execute，and store ( FDES) ( 取 
指 ， 译 码 ， 执 行 ， 存 储 ) 78，78f，90f 
CPUs pipelines and (CPU 流水 线 ) ，175 ，175f 
FFD， 见 Full Function Device 
FFT， 见 Fast Fourier transform 
Field programmable gate array (FPCA) (现场 可 编 
程 门 阵列 ), 42, 42n4, 166, 234, 246 
embedded systems CPUs and (向 入 式 系统 CPU)， 
323 
hardware software codesign of ( 软 硬 件 协同 设 
计 ) ，363-365 ，364f 


JTAG and (调试 接口 ) ，336 
PPU for (并 行 处 理 单元 )，498-500 
RE for (逆向 工程 ) ，346，346f，350 ，352 
prevention of ( 预防) ，356-357 
soft core processors and ( 软 核 处 理 器 ) ，358-362 
FIFO， 见 First-in first-out 
File handling，in UNIX (文件 处 理 ) ，385-386 
File system (FS) (文件 系统 ) 
directories of ( 目录 ) ，428-430，430f，431f 
inodes of (索引 节点 ) ，425-428 ，428f 
JFS for (遍历 文件 系统 ) ，424，431，432f 
OS and (操作 系统 ) ，421-433 
superblocks of (超级 区 块 ) ，424-425 ，426f 
File transfer protocol (FTP) (文件 传输 协议 ) ，465 
Finite impulse response filter (FIR) (有 限 脉 冲 响应 
滤波 器 ) ，127 
Finite-state machine (FSM) (有 限 状态 机 ) ，74 
FIQ ， 见 Fast interrupt request 
FIR, 见 Finite impulse response filter Firewire ,268 
First-in first-out (FIFO) (先进 先 出 )，139，151 
asynchronous processors and (异步 处 理 器 ) ，508 
interrupts and (中 断 ) ，273 
temporal scope and (时 间 范 围 参 数 ) ，271 
First-level interrupt handler (FLIH) (一 阶 中 断 处 
理 器 ) ，403 
Flash memory (闪存 ) 72 
booting and，( 启 动 ) ，325 ，406-407，407f，408f 
for data storage (数据 存储 ) ，107 
for embedded systems CPUs (嵌入 式 系统 CPU ) ， 
298 ，307，309-313 ，313f 
JTAG and 〈 调 试 接口 ) ，334-335 
for NAND (与 非 门 ) ，309 
for NOR (或 非 门 ) ，309 
RE of (逆向 工程 ) ，352 
slowing of ( 减 慢 ) ，312-313 
soft core processors and ( 软 核 处 理 器 ) ，359 
for storage (存储 ) ，418 
FLIH， 见 First-level interrupt handler 
Floating point emulator ( FPE) ( 浮 点 仿真 )， 
160-162 
Floating point numbers ( 浮 点 数字 ) ，49-58 
data processing of (数据 处 理 ) ，111-112 
IEEE754, 50-51, 58-64 
processing of (人 处理) ，58-64 
SSE and (SIMD 流 指 令 扩展 ) ，165 
Floating point operations (FLOP) ，( 浮 点 运算 ) 13， 
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14f 
Floating point unit (FPU)( 浮 点 运算 单元 ), 21， 
58, 159-162, 161f 
on ARM, 160 
coprocessors for ( 协 处 理 器 ) ，158 
data processing by (数据 处 理 ) ，112 
instruction sets and (指令 集 和 ) ，87 
MMX (多 媒体 扩展 ) and，164 
relative branching and (相对 分 支 地 址 ) ，187 
resource manager for，( 资源 管理 器 ) ，396 
superscalar architectures and (超标 量 体 系 结构 ) ， 
194, 194f 
on VIA Isaiah, 294 
VLIW and, 249 
FLOP， 见 Floating point operations Floppy discs ( 浮 
点 运算 软盘 ) ，115 
backup system and (备份 系统 ) ，433 
Flowers, Tommy, 3 
Flynn, Michael, 18, 19f 
Flynn's taxonomy (Flynn 分 类 法 ) ，18 
FORmula TRANslation (FORTRAN ) 112n13, 380 
FPE， 见 Floating point emulator 
FPGA, 见 Field programmable gate array 
FPU， 见 Floating point unit 
Fractional notation (分数 表示 法 ) ，29-30 
Fractional numbers (分 数 ) 
arithmetic with (算术 运算 ) ，47-48 
division of (除法 ) ，48-49 
multiplication of (乘法 ) ，48-49 
number formats for (数字 格式 ) ，46-49 
FreeBSD (一 种 免费 使 用 的 UNIX 操作 系统 )， 
392 ，393 ，394 
triple-boot of (三 重启 动 ) ，420-421 
FS， 见 File system 
FSM， 见 Finite-state machine 
FTP， 见 File transfer protocol Full adder (全 加 器 )， 
32, 32f 
Full- associative cache (全 相 联 cache) ，149 
Full Function Device (FFD) (全 功能 设备 ) ，489 
Functional blocks (功能 模块 ) ，18 
G 
CAN， 见 Global area network 
GEC Plessey Semiconductors (GEC Plessey 半导体 公 
司 ) 261 
General Packet Radio Service (GPRS) (通用 分 组 无 


线 服务 ) ，487 
Generalized floating point (广义 浮 点 ) ，49 
GFLOPS (每 秒 十 亿 次 浮 点 运算 ) ，115 
Global area network (GAN) (全 球 区 域 网 络 ) ，490 
Global branch predictor (全 局 分 支 预测 器 ) ，185 ， 
217-219，218f 
Global positioning satellite (GPS) (全 球 定 位 卫 
星 )，238 
SEUs for ( 单 粒 子 翻转 ) ，336 
Global System for Mobile Communications ( GSM ) 
(全 球 移动 通信 系统 ) ，486-487 
Glue logic ( 胶 连 逻辑 ) ，362 
GNU, 118 
UNIX and, 387 
Google， 见 Android ASR ，237 
GPRS， 见 General Packet Radio Service 
GPS， 见 Global positioning satellite CPU 
for parallel machine (并 行 机 器 ) ，497 
resource manager for (资源 管理 ) ，396 
Grain size，for parallel machines (节点 粒度 程度 ， 
并 行 机 器 ) ，504 
Graphical user interface (CUI) (图 形 用 户 界 
面 ) ，371 
directories for ( 目录 ) ，428 
OS and (操作 系统 ) ，392 
UNIX, 383, 384, 385 
grep (UNIX 工具 程序 ， 可 进行 文件 内 的 字符 串 查 
找 )，387 
Grid computing (网 格 计算 )，235，237 
Gselect branch predictor (G 选择 分 支 预测 器 )， 
219-220，220f 
Gshare branch predictor (G 共享 分 支 预 测 絮 )， 
221, 221¢ 
GSM， 见 Global System for Mobile Communications 
GUI， 见 Graphical user interface 


H 


HAL， 见 Hardware abstraction layer Half- duplex， 
438-439 
Half- precision ( 半 精 度 ) ，50 
Hamming codes ( 汉 明 码 ) ，337，338 
matrices for (和 矩阵 ) ，340 
Handoff，for networking (切换 ) ，458 
Hard deadlines ( 硬 时 限 要求 ) ，270 
Hard disc drive (HDD) (机 械 硬 盘 ) ，72 
backup system and (备份 系统 ) ，433 
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booting from (启动 )，405-406，408-409，420-421 
for data storage (数据 存储 ) ，107 
FS and (文件 系统 ) ，421-433 
MMU (内 存 管理 单元 ) on，136，137f 
partitioning of (分 区 ) ，419-420 ，421f 
for storage (存储 ) ，417-420 ，419f 
UNIX shell on ，384 
Hard real-time system ( 硬 实 时 系统 ) ，270 
Hardware abstraction layer (HAL) (硬件 抽象 层 ) ， 
403 
Hardware acceleration (硬件 加 速 器 ) 
address handling for (地 址 处 理 ) ，204-207 ，207f 
CPUs and，201-208 ，203f，207f 
shadow registers for (影子 寄存 器 ) ，207-208 
ZOL for ( 零 开 销 循环 ) ，201-206 ，203f 
Hardware software codesign, for embedded systems 
CPUs 〈 骨 入 式 系统 CPU 中 的 软件 、 硬 件 协 
同 设计 ) ，363-365 ，363n11 ，364f，366f 
Harvard architecture (哈佛 体系 结构 ) ，19 
DSP in (数字 信号 处 理 ) ，128 ，128f 
HCLK, 259 
HDD, 见 Hard disc drive Hewlett- Packard, 101 
Hierarchical networks (分 层 网 络 )，455-456，456f 
High-level languages (HLL) (高 级 语言 )，86 
VLIW and, 250 
High Speed Packet Access (HSPA) (高 速 分 组 接 
人 )，487 
HLL， 见 High-level languages Homogeneous architec- 
tures ，234 
Host，for cross-compiling， (交叉 编译 中 的 主机 ) ， 
380 
HSPA， 见 High Speed Packet Access 
HTML， 见 Hypertext markup language 
HTTP， 见 Hypertext transfer protocol Hubs (文本 传 
输 协 议 集线器 ) ，473 
Hufftman coding ( 赫 夫 曼 编码 ) ，95-97 
Hybrid branch predictors (混合 预测 器 ) ，222-223， 
222f, 223f{ 
Hyperblocks (特级 代码 段 ) ，226 
Hypercubes ( 超 立 方 体 ) ，503 
Hypertext markup language ( HTML) ( 超 文本 标记 
语言 ) ，383 ，464 
Hypertext transfer protocol (HTTP) ( 超 文 本 传输 协 
议 ) ，464 
DNS and (域名 服务 器 ) ，480 





IO， 见 Input/output 
IAB， 见 Internet Architecture Board IBM 
ARM and，83 
Cell processor ( Cell 处 理 器 )，234- 235 FOR- 
TAN, 112n13 
ISA (工业 标准 体系 结构 )，262 
JFS, 424 
MCA ，261 
PowerPC RISC processor ( PowerPC RISC 处 理 
器 ) ，234 
IBM (Cont ) 
speculative execution by (预测 执行 ) ，186 
System/360, 8-9, 9f, 80 
ICE， 见 In-circuit emulator 
ICMP， 见 Internet control message protocol 
ICs， 见 Integrated circuits 
IDE， 见 Integrated development environment; Inte- 
grated drive electronics 
Idle tasks (空闲 任务 ) ，272 
IEC， 见 Electrotechnical Commission 
IEEE754 (二 进 制 浮 点 数 算术 标准 )，21 
addition of (加 法 )，59-62 
arithmetic for (算术 )，59-62 
denormalized numbers ( 非 规范 化 数字 ) ，53-54， 
56-57 
division of (分 区 ) ，62-63 
floating point numbers ( 浮 点 数 ) ，50-51，58-64 
FPE and ( 浮 点 仿真 ) ，160-161 
FPU and ( 浮 点 运算 单元 ) ，159 
modes (模式 ) ，51-55 
multiplication of (乘法 ) ，62-63 
normalized mode ( 归 一 化 模式 )，52-53，55-56 
number ranges (数字 范围 )，55-58 
rounding of ( 舍 信 )，63-64 
subtraction of (减法 ) ，59-62 
IEEE 802, 284, 437, 467, 487 
IEEE 1149 JTAG, 295 
IEEE 1284, 267 
IEEE 1394, 268 
IETF， 见 Internet Engineering Task Force 
IFU， 见 Instruction fetch and decode 
IIC， 见 Inter-IC Communlcations 
IR， 见 Infinite impulse response filter 
ILP， 见 JInstruction-level parallelism 
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IMAP， 见 Internet mail access protocol 
Immediate constant，ARM and (立即 数 ，ARM ) ， 
93-95 
In-circuit emulator (ICE) (内 置 仿真 器 ) ，333 
Index (索引 ) 
buses and (总 线 ) ，126-127 
in registers (寄存 器 ) ，109 
Industrial ，scientific， and medical band ( ISM ) 
(ISM 频段 ) ，488 
Industry standard architecture (ISA) (工业 校准 体 
系 结构 ) ，262-263 
PCI and, 265 
Infinite impulse response filter (IIR) (无 限 脉 冲 响 
应 滤波 器 ) ，127 
Infinity (无 穷 ) ，54 
Inodes (索引 节点 ) ，425-428 ，428f 
Input/output (IJO) 〈 输 入/ 输出)，73，77， 见 
Basic input output stream 
addresses，PCI and (PCI 地 址 ) ，265 
buses (总 线 ) ，267 
embedded systems CPUs ( 骨 人 式 系统 CPU ) ， 
295 ，329-330 
OS and (操作 系统 ) ，392 
SATA and ( 串 行 ATA) ，329 
on Texas Instruments MSP430 ，295-297 
Instruction cycle (指令 周期 ) 2 
interrupts and (中 断 ) ，275 
Instruction fetch and decode (IFU) 〈 取 指 和 译 码 ) ， 
90-95 
branching and (分 支 ) ，92-93 
immediate constant and (立即 数 ) ，93-95 
Instruction handling (指令 处 理 ) 
addressing modes and ( 寻 址 模式 ) ，97-101 
by CPUs，86-102 
Huffman coding and ( 赫 夫 曼 编 码 ) ，95-97 
IFU and ( 取 指 和 译 码 单元 ) ，90-95 
RPN ( 逆 波 兰 表示 法 ) and，100-102 
stack processing and (堆栈 处 理 ) ，100-102 ，102f 
Instruction-level parallelism (ILP) (指令 级 并 行 )， 
228 ，246 
Instruction queue (IQ ) for Tomasulo’ s algorithm 
(Tomasulo 算法 指令 队列 ) ，240 
Instruction sets (指令 集 ) 
ARM and，87-89，88f，91 
CISC (复杂 指令 集 ) ，193 
compressed (压缩 ) ，95-97 





for CPUs (对 于 CPU) ，86-90，88f 
pipelines ( 流水线) ，188-189 
RISC (精简 指令 集 ) ，193 
Instruction translation (指令 翻译 ) ，81 
Instructions per cycle (IPC) (每 周期 指令 数 ) 
for CPUs (对 于 CPU ) ，198-201 
in parallel machines (并 行 处 理 器 ) ，233 
Integrated circuits (ICs) ， 见 Printed circuit boards 
ARM and, 83, 85 
buses on ( 总线) ，257 
pin swapping of ( 引 脚 交换 ) ，352-353 
in computer organization (计算 机 组 成 ) ，17 
in CPUs (在 CPU 中 ), 76 
design and manufacture problems of (设计 和 生产 
问题 ) ，328-331 ，330f 
in fourth- generation computers (第 四 代 计 算 
机 ), 9 
in multicore machines ( 多核 处 理 器 ) ，234 
in parallel machines (并 行 处 理 器 ) ，233 
propagation delay and (程序 延迟 ) ，303 
of Samsung S3C2410 ，292 
in third-generation computers (第 三 代 计 算 机 )，8 
Integrated development environment (IDE) (集成 开 
发 环境 ) ，382-383 
Integrated drive electronics (IDE), 73 
Intel, 14 
DIP, 262 
IXP425, 258 
MMX (多 媒体 扩展 ) ，162-163 
Pentium (奔腾 处 理 器 ) ，163 
Pentium Pro, 145 
performance of (性 能 ) ，115 
StrongARM (StrongARM 处 理 器 ) ，20，85 ，145 
PPU for，498 
transistors and ( 晶体管) ，12 
XScale, 145, 279 
Intel 80486, FDIV bug in, 328 
Inter-IC Communications (IIC) ( 串 行 多 点 编 址 )， 
260 
Interfaces ， 见 specific types 
for networking，268 , 269f 
wireless technology and (无 线 技术 ) ，284 
Internal data ( 内 部 数据 ) ，108-109 
Internal fragmentation (内 部 存储 碎片 )，of MMU 
《内 存 管理 单元 ) ，140 


International Organization for Standardization (ISO ) 
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(国际 标准 化 组 织 ) ，454 
Internet ( 因特网 ) ，461-464 
cables for (电缆 ) ，469 
governance of (管理 ) ，462-463 
history of (历史 ) ，462 
RFC for (RFC 文件 ) ，463-464 
Internet Architecture Board (IAB) (互联 网 架构 委 
员 会 ) ，463 
Internet control message protocol (ICMP ) (Internet 
控制 报 文 协议 ) ，486 
Internet Engineering Task Force (IETF) (国际 互联 
网 工程 任务 组 ) ，463 
Internet layer (网 络 层 ) ，465 ，466 ，474-482 
Internet mail access protocol (IMAP) (JInternet 邮件 
访问 协议 ) ，464 
Internet Protocol ( 卫 ) ，282 ，284， 见 TCP/IP 
addresses ( 地址) ，474-476 ，474n5 
ARP for (地 址 解析 协议 ) ，485-486 
naming (命名 ) ，478 
layer ( 层 ) ，464-469 ，464f 
routing (路 由 ) ，477 
Internet Research Task Force (IRTF) (互联 网 研究 
专门 工作 组 ) ，463 
Internet service provider (ISP) (互联 网 服务 提供 
商 ) ，477 
DNS for (域名 服务 器 ) ，481 
Interpreted languages (解释 型 语言 )，381- 383， 
382f 
Interrupt request (IRQ), 280 
interrupts and (中 断 ) ，276，277-278 
PC/104 standard and (PC/104 标准 ) ，263 
Interrupt service routine (ISR) (中 断 服务 例 程 ) ， 
208 ，278 
interrupts and (中 断 ) ，276 
OS and (操作 系统 ) ，273 
Interrupts (中 断 ) 
branching ( 转 入 )，276-278 
CPU and, 269-270, 273-282 
FLIH for (一 阶 中 断 处 理 器 ) ，403 
redirection of ( 重 定 向 )，278-279 
reentrant code for ( 重 入 代码 ) ，281 
sharing (共享 ) ，280-281 ，281f 
INTEST (内 部 测试 ) ，334 
Inverse of CPI (IPC) (每 条 指令 周期 数 倒数 )， 
115 
IP， 见 Internet Protocol 


IPC, 见 Instructions per cycle; Inverse of CPI 

IJQ， 见 Instruction queue 

IRQ， 见 Interrupt request 

IRTF， 见 Internet Research Task Force 

JSA， 见 Industry standard architecture 

ISM， 见 Industrial ，scientific ，and medical band 
ISO， 见 International Organization for Standardization 
ISP， 见 Internet service provider 


ISR， 见 Interrupt service routine 


J 


Java, 103, 380 
embedded systems coprocessors (网 入 式 系 统 协 处 
理 器 ) ，166 
javascript，383 
Jazelle，166 
JEDEC (联合 电子 设备 工程 会 议 ) ，347 
JFFS2， 见 Journaling flash filing system 
JFS， 见 Journaled FS 
JIS (日 本 工业 标准 )，347. 
Joint Test Action Group (JTAG) (联合 测试 行动 小 
组 ) ，295 ，333-336 ，334f 
for booting (启动 ) ，335 
Journal checksumming (日 志 校 验 ) ，423 
Journaled FS (JFS), 424, 431, 432f 
Journaling flash filing system (JFFS2) (日 志 闪 存 归 
档 系统 ) ，424 
JTAG， 见 Joint Test Action Group 
K 


Kernel ( 内核 ) 
for booting (启动 ) ，406 
for embedded systems CPUs ( 般 入 式 系 统 
CPU ) , 325-326 
of OS (操作 系统 ) ，402-403 
Korn Shell (kshell), 384 
E 


Large-scale integrated devices (LSI) (大 规模 集成 
设备 ) ，347 

Last-in first-out (LIFO) (后 进 先 出 ) ，101 

Lattice semiconductor ( 唱 格 半导体 ) ，366 

Layered OS (分 层 操 作 系 统 ) ，402-404 ，404f 

LC， 见 Logic cell 

LCD， 见 Liquid crystal display 

LDM， 见 Load multiple registers 

LDR， 见 Load register 





LE， 见 Logic element 
Least frequently used (LFU), 151 
Least recently used (LRU) (最 近 最 少 使 用 算法 )， 
139 151 
Least significant bit/byte (LSB) ，( 最 低 有 效 位 / 字 
节 ) ，23-25 ，494，495 ，495f 
for fractional notation ( 分数 表 示 法 ) ，29 
for subtraction (减法 ) ，35 
LED 
BCD for (BCD 码 ) ，29 
power for (供电 ) ，306 
temporal scope and (时 间 范 围 参数 )，272 
LFU ， 见 Least frequently used 
LIFO， 见 Last-in first-out 
LINE, 146 
Line- of- sight (LOS ) ，for WiMax ( 视 距 ， 用 于 
WiMax) , 487-488 
Link register (LR) ( 链 路 寄存 器 ) ，375 
Linkers ，compilers and (链接 器 ， 编 译 器 ) ，377- 
379，378f，379f 
Linux，392 ，393 
Beowulf，235 
booting on (启动 )，406 
compiled languages (编译 型 语言 ) ，377 
directories of ( 目录 ) ，430，430f 
embedded systems for (嵌入 式 系统 ) 95 
FS of (文件 系统 ) ，422 
kernel of (内核 ) ，406 
language and (语言 ) ，143 
as layered OS 〈 作 为 分 层 操作 系统 ) ，404f 
memory of ，for embedded systems CPUs ( 千 入 式 
系统 的 内 存 ) ，323-324 
scheduling on (调度 ) ，416 
shell，384 
triple-boot of (三 重启 动 ) ，420-421 
XIP for (即刻 执行 ) ，323 
Liquid crystal display (LCD) (液晶 显示 器 )， 
29，292 
LITTLE, 238-239, 239n13 
Little endian (小 端 ) ，22-25 
LLC， 见 Logical link control 
Load multiple registers (LDM) (批量 加 载 ) ，193 
Load register (LDR) (加 载 寄 存 器 ) ，74 
Load-store (负载 存储 ) ，73 
addressing modes and ( 寻 址 模式 ) ，98 
instruction sets and (指令 集 ) ，193 
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Load store unit (LSU), 242-245, 245t 

Local branch predictor (局 部 分 支 预测 器 ) ，185 ， 
214-217, 215f 

Logic cell (LC) (逻辑 单元 ) ，496 

Logic element (LE) (逻辑 元 素 ) ，496 

Logic gates (逻辑 门 ) ，$23-S24 

Logic propagation delay (逻辑 门 传 播 延迟 ) ，174 

Logical link control (LLC) (逻辑 链接 控制 ) ，465 

Look-up tables (LUTs) (查找 表 ) ，142 ，154 ，366 

LOS， 见 Line-of- sight 

Low-level scheduler (底层 调度 程序 ) ，403 

Low-voltage differential signaling (LVDS) ( 低 电 压 
差分 信号 ) ，261-262 ，265-267 ，266f 

PPU for, 500 

Locality principles ，for cache memory (cache 局 部 性 
原则 ) ，149-150 

LR， 见 Link register 

LRU， 见 Least recently used 

LSB， 见 Least significant bit/byte 

LST， 见 Large- scale integrated devices 

LSU， 见 Load store unit 

LUTs， 见 Look-up tables 

LVDS， 见 Low-voltage differential signaling 


M 


MA， 见 Multiple access 

MAC， 见 Media access controller; Multiply- accumu- 
late controller 

Machine code (机 器 码 ) ，71 

Machine parallelism (机 器 并 行 ) ，228 

MacOS, 393, 394 

dual- booting of (双重 启动 ) ，420 

Mailboxes，270 

Manchester University ( 曼彻斯特 大 学 )，5，507 

Marconi Ltd. ( Marconi 公司 ) ，261 

MareNostrum 4, 12, 13f, 15 

Mask-programmed gate array (MPCA) ( 掩 膜 编程 
门 阵列 ) ，356 

Mass storage (大 容量 存储 ) ，417-418 

Massachusetts Institute of Technology ( 麻 省 理工 学 
院 ) ，5 

Master boot record (MBR) ( 主 引 导 记 录 ) ，420-421 

MCA ， 见 Microchannel architecture 

MCM， 见 Multichip module 

Mean time before failure (MTBF) (平均 故障 间隔 
时 间 ), 6 
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for OS (操作 系统 )，393 
Media access controller (MAC) (介质 存 取 控制 
器 ) ，268 ，269f 
addresses 
ARP for (地 址 解析 协议 ) ，485-486 
for WiFi, 487 
DMA and, 258 
network layer and (数据 链 路 层 ) ，465 
superscalar architectures and (超标 量 体 系 结构 ) ， 
194 
Media- independent interface (MII) (媒体 独立 接 
口 ) ，268 
MEMC ，83 
Memory， 见 specific types 
addressing modes and ( 寻 址 模式 ) ，99 
of ARM, 372-373, 373f 
for embedded systems CPUs ( 髋 入 式 系 统 CPU)， 
323-324 ，325f 
for booting (启动 )，405 
bootloader and，279-280 
bytes and ( 字 节 ) ，107 
in CPUs，114 
DSP and (数字 信号 处 理 ) ，128 
for embedded systems CPUs ( 栎 和信 式 系 统 CPU ) ， 
295 ，306-321 ，323-328 ，324f 
EMI and，285 
hierarchy of (层次 结构 ) ，71-72 ，72f 
IPC and (每 周期 指令 数 ) ，201 
of Linux ，for embedded systems CPUs ( 租 和 人 式 系 
统 CPU) ，323-324 
maps 
for Texas Instruments MSP430 (德州 仪器 )， 
326-327 
WDTs for (看 门 狗 定 时 器 ) ，341 
OS and (操作 系统 ) ，398-400 ，399f 
pages of (页 面 ) ，137 
for embedded systems CPUs ( 攀 入 式 系统 CPU ) ， 
321-323 
power and (供电 ) ，306 
silicon for ( 硅 ) ，307 
variables in (变量 ) ，108 
VLIW and，249 
Memory management unit (MMU) (内 存 管理 单元 ) ， 
21- 22，72，136- 145, 137f, 138f, 141f, 
142f 
advanced ( 高级) ，142 


cache memory and (cache 存储 器 ) ，144 
for data storage (数据 存储 ) ，108 
direct cache and (直接 相连 cache) ，146 
for embedded systems CPUs ( 艇 入 式 系统 CPU ) ， 
321-323 
external fragmentation of (外 部 碎片 ) ，140-142 
internal fragmentation of (内 部 碎片 ) ，140 
memory protection in (内 存 保护 ) ，143-144 
RAM and，22，137-140 
retirement algorithms for (退回 算法 ) ，139-140 
of Samsung S3C2410 ，292 
segmentation of (片段 ) ，140 
virtual memory and (虚拟 内 存 ) ，136 
Memory reorder buffer (MOB ) ，294 
Mesh，for parallel machines (网 格 ， 用 于 并 行 机 
器 ) ，503 
MESI protocol (MESI 协议 ) ，156-158 ，157f 
Message passing interface (MPI) (消息 传递 接口 )， 
503 
MFLOPS， 见 Millions of floating point operations Per 
second 
Microchannel architecture (MCA ) ( 微 通 道 体 系 结 
构 ) ，261 
Microcode ( 微 指令 ) ，79-81，80f 
Microkernel ( 微 核 ) ，405 ，405f 
Microsoft Disk Operating System (MS-DOS) ，( 微软 
磁盘 操作 系统 ) ，394 
directories of ( 目录 ) ，430，431f 
in fourth- generation computers (第 四 代 计 算 
机 );9 
partitioning of (分 区 ) ，421 
prompt，( 提示 符 ) ，384 
reset supervisors for，( 复位 监测 器 ) ，341 
Microsoft Windows ，393 
directories of ( 目录) ，430，431f 
multi-tasking on (多 任务 ) ，416 
triple-boot of (三 重启 动 ) ，420-421 
VM (虚拟 机 ) ，394 
MII， 见 Media-independent interface 
Millions of floating point operations per second 
(MFLOPS) (每 秒 百 万 次 浮 点 运算 ), 115 
Millions of instructions per second (MIPS) (单字 长 
定点 指令 平均 执行 速度 ) ，71，114 
for embedded systems CPUs ( 骨 入 式 系 统 CPU ) ， 
337 
RISC and (精简 指令 集 计算 机 )，82 





MIMD， 见 Multiple instruction stream, multiple data 
MIPS， 见 Millions of instructions per second 
MISD， 见 Multiple instruction stream，single data 
Mitsubishi, 248 ，250 
MMC， 见 Multimedia card 
MMU， 见 Memory management unit 
MMX， 见 Multimedia extensions 
MOB， 见 Memory reorder buffer 
Mobile multiprocessing (移动 处 理 ) ，238 
Mobile networking (移动 网 络 ) ，458 
Modeling ，for hardware software codesign ( 软 硬 件 协 
同 设计 建 模 ) ，365 
Modulo-2，338n4 ( 模 2) ，339 
Monolithic OS (单片机 操作 系统 ) ，402 
Moore，Gordon (人 名 ) ，lnl 
Moore' s law (摩尔 定律 ) ，1，1lnl ，233 
MOS Technology Inc. (MOS 技术 公司 ) ，12 
Most important first scheduling (最 重要 最 优先 调 
典 ) 272 
Most significant bit/byte ( MSB) (最 高 有 效 位 )， 
23-25, 214 
for IEEE754 normalized mode (IEEE754 标准 化 模 
式 ) ，56 
for sign extension (符号 扩展 ) ，31 
for sign magnitude ( 原 码 ) ，26 
for subtraction (减法 ) ，36 
for two" s complement ( 补 码 ) ，27 
Motorola 68000 (摩托 罗拉 68000) ，71 ，204 
MOV ，93-94 
MP3, 118 
DCP for, 231 
MPGA， 见 Mask-programmed gate array 
MPI， 见 Message passing interface 
MS-D0S， 见 Microsoft Disk Operating System 
MSB， 见 Most significant bit/byte 
MTBF, 见 Mean time before failure 
MUL 
superscalar architectures and (超标 量 体 系 结构 ) ， 
194f{，196 
VLIW for, 246 
Multiple-issue superscalars ( 多 发 送 超标 量 ) ，197 
Multitasking (多 任务 ) 
on Microsoft Windows, 416 
in third- generation computers (第 三 代 计 算 机 )， 
8 
Multicasting (多 播 ) ，478 
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Multichip module (MCM) (多 芯片 模 组 ) ，234 
Multicore machines (多 核 处 理 器 ) ，234 
Multifunction pipelines (多 功能 流水 线 )，176- 
) i A 
Multimedia card (MMC) (多 媒体 ) ，268 
Multimedia extensions (MMX ) (多 媒体 扩展 )， 
162-165, 163f 
coprocessors for ( 协 处 理 需 ) ，158-159 
embedded systems coprocessors and ( 嵌 人 式 系统 
协 处 理 器 ) ，165 
FPU and ( 浮 点 运算 单元 ) ，159-160 
SIMD and ( 单 指令 流 多 数据 流 ) ，228 
Multiple access (MA) (多 路 存 取 ) ，473-474 
Multiple instruction stream, multiple data (MIMD ) ， 
(多 指令 流 ， 多 数据 ) ，18 ，19f，227 
interrupts and (中 断 ) ，273 
SISD to ( 单 指令 流 单 数据 流 ) ，230-232，231 
Multiple instruction stream ，single data (MISD) (多 
指令 流 ， 单 个 数据 ) ，18 ，19f，227 
Multiple-valued logic (多 值 逻 辑 ) ，509-510 
Multiplication (乘法 ) ，37-44 
of fractional numbers (分 数 ) ，48-49 
of IEEE754 ，62-63 
partial products for (部 分 积 ) ，38-41，39f，41f 
Multiply- accumulate controller (MAC) (乘法 累加 
控制 器 ) ，87 
buses and (总 线 ) ，125 ，125f，126f 
Multiuser systems (多 用 户 系统 ) ，394 
Mutual exclusion ( 互 斥 ) ，413 
N 


N (negative) flag (负数 标志 位 )，for pipelines 
(流水 线 ) ，182 
NACK protocol (否定 确认 协议 ) ，449-451，450f 
TCP and (TCP) ，484 
NaN， 见 Not a number 
NAND, 418, 523 
CMOS for (互补 金属 氧化 物 半导体 )，301，302f 
flash memory for (闪存 )，309 
nCAS， 见 Column address strobe 
NDA， 见 Nondisclosure agreement 
Near- field _ communications ( NFC) ( 近 场 通信 )， 
489 
NEON-advanced SIMD ( NEON 一 一 先进 的 SIMD)， 
166 
NetBIOS (网 上 基本 输入 输出 系统 ) ，465 
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Network file system (NFS) (网 络 文件 系统 ) ，465 
Network layer (数据 链 路 层 ) ，465 ，466-567 
Networking (网 络 ) ，437-458，461-490. 男 见 Eth- 
ernet; Internet; Wireless 
ad hoc (点 对 点 ) ，457-458 
addresses for (地 址 ) ，452-453 
arbitration for (仲裁 ) ，451-452 
architectures (架构 )，441，455-458 
client- server architecture for ( 主 从 架构 )，456， 
457f{ 
control packets for (控制 包 ) ，452 
decoding for (解码 ) ，445 
ECCs in ( 纠 错 码 ) ，447-449 ，449f 
encoding for ( 编码) ，445 
error handling in (错误 控制 ) ，446-451 ，446f， 
449f, 450f 
handoff for (切换 )，458 
hierarchical (分 层 ),，455-456，456f 
interfaces for (接口 )，268，269f 
management of (管理 ) ，451-453 
mobile (移动 ) ，458 
for one- to- many communications (一 对 多 通信 )， 
439-440 ，439f，440f 
for one- to- one communications (一 对 一 通信 )， 
438-439 ，438f 
OSI for, 454-455, 454f 
packet switching for ( 包 交 换 ) ，440-441，441f 
packetization for (封包 化 ) ，443-445 
peer- to- peer architecture for (对 等 架构 )，456- 
457 
receivers for (接收 端 ) ，445-446 
scales for (扩展 ) ，453 ，490 
system requirements for (系统 要 求 ) ，443-453 
topologies for (拓扑 ，441- 443 ，442f，443f， 
455-458 
transmitters for (发 送 端 )，445 
UNIX for, 383-384 
NFC， 见 Near-field communications 
NFS， 见 Network file system 
nGCS, 259-260 
Nice, 416 
No operation (NOP) (无 操作 ) ，177，186 
CPUs pipelines and (CPU 流水 线 ) ，183 
interrupts and (中 断 ) ，276-277 
for serial ports ( 串 行 端口 ) ，328 
VLIW and，249 


Non-volatile memory (NV) ( 非 易 失 性 存储 器 )， 
405, 417 
booting from (启动 )，325-327 
RE for (逆向 工程 ) ，350，351 
Nondisclosure agreement (NDA) (保密 协议 ) ，347 
NOP， 见 No operation 
NOR，418 ，523 
flash memory for (闪存 ) ，309 
Normalized mode (标准 化 模式 )，52-53，55-56 
NOT ( 非 )，523 
ARM and, 85n5 
CPUs pipelines and (CPU 流水 线 ) ，189 
Not a number (NaN) ( 非 数 ) ，54 
nRAS， 见 Row address strobe 
NRE, 358 
Number formats (数字 格式 ) ，25-31 
alternatives for (替代 品 )，509-513 
for fractional numbers (对 于 分 数 ) ，46-49 
NV， 见 Non-volatile memory 
nWAIT, 257, 259 
O 
Octuple precision ( 八 倍 精度 ) ，50 
OCXO， 见 Oven-controlled crystal oscillators 
OFDM ， 见 Orthogonal frequency division multiplexing 
Offset ( 偏 移 ) 
for addresses (地 址 偏 移 ) ，90，187 
ALU and 〈 算 术 逻 辑 单元 ) ，224 
in branching (分 支 ) ，92-93 
for superblocks (超级 区 块 ) ，425 
One '"s complement ( 反 码 ) ，27 
Open (打开 指令 )，400 
Open systems interconnections (OSI) (开放 系统 互 
联 ) ，21，261，454-455 ，454f 
IP layer (IP 层 )，464，464f (网 络 层 ) 
Operating system (OS) (操作 系统 ) ，391-433 ， 见 
Real- time operating system; specific operating 
systems 
availability of，( 可 用 性 ) ，394 
backup system of (备份 系统 ) ，431-433 
BIOS and (基本 输入 输出 系统 ) ，21 
booting and (启动 )，405-410，407f，408f 
client- server architecture for (客户 端 -服务 器 结 
构 ) ，402，404-405 ，405f 
for cloud computing ( 云 计算 ) ，395 
for cluster computers (集群 计算 机 )，395 
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concurrency and (并 发 ) ，411-413 
CPU and, 393, 411-413 CPU time and (CPU 时 
间 ) ，397-398 ，398f 
directories of ( 目录) ，428-430 ，430f，4311f 
DNS for，480 
for embedded systems (嵌入 式 系统 ) ，395 
for embedded systems CPUs (嵌入 式 系统 CPU ) ， 
323 
emulation and (仿真 ) ，401 
error handling and (错误 处 理 ) ，401 
in fourth- generation computers (第 四 代 计 算 
机 )，9 
FS and (文件 系统 ) ，421-433 
interrupts and (中 断 ) ，279 
ISR and (中 断 服务 程序 ) ，273 
kernel of ( 内核 )，402-403 
layered (分 层 ) ，402-404 ，404f 
memory and ( 内存 )，398-400，399f 
for multiuser systems (多 用 户 系 统 ) ，394 
mutual exclusion for ( 互 床 ) ，413 
processes on (进程 ) ，410-413 ，4121 
programming for (编程 ) ，371 
reliability of ( 可靠 性 ) ，393-394 
resource manager for (资源 管理 器 ) ，396 
safety of (安全 性 ) ，394 
scheduling and (调度 ) ，413-417 
for single-user systems ( 单 用 户 系统 ) ，394 
storage and (存储 ) ，400-401，417-433 ，419f 
structure of ( 结构 ) ，402-405 
SWI and (软件 中 断 ) ，281 
synchronization of ( 同步) ，413 
task-switching by (任务 切换 ) ，397-398 ，397nl 
in third- generation computers ，8 types of (第 三 代 
计算 机 ) ，395-396 
for VM (虚拟 机 ) ，394 ，396-397 
WDTs for (看 门 狗 定时 器 ) ，341 
Optical computation (光学 计算 ) ，5$14-517 
OR (或 ) ，134 
ALU for (算术 逻辑 单元 ) ，21 
control unit and (控制 单元 ) ，79 
for subtraction (减法 ) ，35 ，35f 
Orthogonal frequency division multiplexing ( OFDM ) 
〈 正 交 频 分 复 用 技术 ) ，487 
0S， 见 Operating system 
OSI， 见 Open systems interconnections 
Oslo PDP-7，8f 





Oven- controlled crystal oscillators ( OCXO) (Oven- 
controlled 晶体 振荡 器 )，301 

Overflow (V) flag，for ALU (ALU 的 溢出 (V) 标 
准 )，134，182 


P 


Packet latency ( 包 延 迟 ) ，441-442 
Packet switching ( 包 交 换 ) ，440-441，441f 
Packetization (分 包 化 ) 
in application layer (在 应 用 层 ) ，465 
for Internet (用 于 因特网 ) ，476-477 
for networking (用 于 网 络 ) ，443-445 
Pages，memory ( 页面， 存储 ) ，137 
for embedded systems CPUs ( 租 人 式 系 统 CPU ) ， 
321-323 
PANs， 见 Personal area networks 
Parallel adder (并 行 加 法 器 ) ，32-34 
Parallel buses (并 行 总 线 ) ，258-260 
Parallel machines (并 行 机 器 ) ，227-239 
of future (未 来 ) ，497-505 ，499f，501f-503f 
IPC for (每 周期 指令 数 ) ，199-200 
for performance (性 能 ) ，232-234 
Parallel ports (并 行 端口 ) ，107 
Parallel processing unit (PPU) (并 行 处 理 单元 )， 
498-501，499f，501f 
Parity memory ( 内 存 奇偶 校 验 ) ，336 
Partial products ，for multiplication (部 分 积 ， 用 于 
乘法 ) ，38-41，39f，41f 
Partitioning (分 区 ) 
for hardware software codesign，365 of HDD ( 软 
件 、 硬 件 协同 设计 ) ，419-420，421f 
PATA (并 行 ATA) ，263 
PC， 见 Personal computer; Program counter 
PC/104 standard (PC/104 标准 ) ，263-265 ，264t 
PCB, 见 Process control block 
PCBs， 见 Printed circuit boards 
PCI， 见 Peripheral component interconnect 
PCI express (PCIe) ，(PCI 增强 型 ) ，265 
LVDS and ( 低 电 压 差 分 信号 ) ，266-267 
PCMCIA ， 见 Personal Computer Memory Card Inter- 
national Association 
PDP-1，7-8 
Peer-to- peer architecture ，for networking (对 等 架 
构 ) ，456-457 
Peripheral component interconnect (PCI) (外 设 单 
元 互联 ) ，262，265 
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Peripheral device buses (外 设 总 线 ) ，267-268 
Personal area networks (PANs) (个 人 局 域 网 ) ，488 
Personal computer (PC) (个 人 计算 机 ) ，12 
Personal Computer Memory Card International Associa- 
tion (PCMCIA) (个 人 计算 机 存储 卡 国际 
协会 ) ，268 
Pervasive computing ( 普 适 计算 ) ，236-237 
PFLOPS (每 秒 一 千 万 亿 次 浮 点 运算 速度 ) ，115 
Phase-locked loops (PLLs) ( 锁 相 环 ) ，294 ，295 ， 
300-301 
Philips (飞利浦 ) ，248 ，250 
PHP，383 
PHY, 见 Physical layer driver 
Physical address (物理 地 址 ) ，21-22 
Physical layer driver (PHY) ， (物理 层 驱 动 器 ) ， 
268, 464, 466-567 
PIC (可 编程 中 断 控制 器 ) ，71 
PIDs， 见 Process identifiers 
Pipelines ( 流水线) 
asynchronous processors and (异步 处 理 器 ) ，508 
branching for (分 支 )，183-185 
compile time and (编译 时 ) ，185-186 
conditional flags for (条 件 标志 ) ，181-183 
of CPUs, 174- 192, 175f, 177f, 178f, 180f, 
184f, 190t, 191f, 192f 
data dependency hazard for (数据 相关 冒险 )， 
180-182 
dynamic (动态 ) ，177-178，178f 
instruction sets for (指令 集 ) ，188-189 
interrupts and (中 断 ) ，275-276 
multifunction (多 功能 ) ，176-177，177f 
in parallel machines (并 行 机 器 ) ，233 
run time 〈 运 行 时 ) ，189-192，191f，192f 
speedups with (加 速 比 ) ，176 
Piz Daint, 505 
PLDs， 见 Programmable logic devices 
PLLs ， 见 Phase-locked loops 
PMA ， 见 Program memory address 
PMs， 见 Processing modules 
PNs， 见 Processing nodes 
POP 
interrupts and (中 断 ) ，276 
RPN and ( 逆 波 兰 表 示 法 ) ，102 
POP3 ， 见 Post office protocol version (邮局 协议 版 
本 3》, 急 
Port number，for transport layer (传输 层 端 口号 )， 


482-483 ，483f 
POST， 见 Power on self-test 
Post office protocol version 3 (POP3 ) (邮局 协议 版 
本 3) ，464，465 
Power 
clocks and (时 钟 ) ，301-306 ，302f，305f 
for CPUs, 301-306, 302f, 305f 
for DRAM, 316 
for embedded systems CPUs ( 骨 人 式 系统 CPU ) ， 
295 
Power on self-test (POST) (开机 自 检 ) ，325 
Power processing element ( PPE) (power 处 理 单 
元 ) ，234-235 ，236f 
PPE ， 见 Power processing element 
PPU, 见 Parallel processing unit 
Prefetch abort ( 预 取 异常 )，143 
Printed circuit boards (PCBs) (印刷 电路 板 ) ，329 
for electro-optic backplane (电光 背 板 ) ，515-516 
RE of (逆向 工程 )，344-345 ，345f，348- 349 ， 
349f 
Pro- Electron (光电 子 ) ，347 
Probabilistic branching (可 能 性 跳 转 ) ，186 
Process control block (PCB) (进程 控制 块 )， 
403 ，349t 
current flow in, 303 
Process identifiers (PIDs) (进程 标识 符 ) ，416 
Process switching (进程 切换 ) ，416-417 
Processes，on OS (操作 系统 进程 )，410- 413 ， 
412f 
Processing modules (PMs) (处 理 模 块 ) ，499 
Processing nodes (PNs) (处 理 节 点 ) ，499 ，501f 
Program counter (PC) (程序 计数 器 ) ，80，84 
branch prediction for (分 支 预测 ) ，209 
BTB for (分 支 目 标 缓冲 ) ，224 
fetch and ( 取 指 ) ，374 
interrupts and (中 断 ) ，276 ，280 
registers and (寄存 器 ) ，124nl 
relative branching and (相对 分 支 地 址 ) ，187 
ZOL and ( 零 开销 循环 ) ，203-204 
Program memory address (PMA) (程序 存储 地 址 ) ， 
126-127 
Programmable logic devices (PLDs) (可 编程 逻辑 器 
件 ) ，RE for，350 
prevention of (预防 ) ，356 
Programs (程序 ) ，371-388 
calling process for (调用 进程 ) ，375-376 
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compilers for (编译 器 ) ，377-381 ，377f-379f 

emulation of (仿真 ) ，380 

IDE for (集成 开发 环境 ) ，382-383 

interpreted languages for (解释 型 语言 )，381- 

383 ，382f 
passive obfuscation of (被 动 混淆 )，355，356t 
RE of (逆向 工程 )，351-353 
prevention of (预防 )，355，356t 

registers for ( 寄存器) ，375-376 

running (运行 )，372-376 

storage for (存储 ) ，70-71 

transfer of (转移 ) ，73-74，73n2 

for UNIX, 383-388 

writing ( 写 人 ) ，376-383 
Propagation delay (程序 延迟 ) ，302 ，303 
Punched cards (穿孔 卡片 ) 

program storage and (程序 存储 ) ，71 

in second- generation computers (第 二 代 计 算 机 ) ，7 
PUSH (入 栈 ) 

ARM and，98 

RPN ( 逆 波 兰 表 示 法 ) and，101 

Q 


Q-format (Q- 格 式 ) ，29，46 
FPE and 〈 浮 点 仿真 ) ，162 
Quadruple precision (四 倍 精 度 ) ，50 
Queues (队列 ) ，270 
R 


Radix (基数 )，29，29n3 
Random-access memory ( RAM) (随机 存 取 存储 
天 )，72，73，80， 见 Dynamic RAM; 
Static RAM ; 
Synchronous dynamic RAM 
cache memory and (cache 存储 器 ) ，154 
for data storage (数据 存储 ) ，108 
direct cache and (直接 相 联 cache) ，147-148 
for embedded systems CPUs (移入 式 系 统 CPU ) ， 
314-321 
fash memory and，( 闪存 ) ，312-313 ，313f 
interrupts and (中 断 ) ，279 
MMU and (内 存 存储 单元 ) ，22 ， 
programming and (编程 ) ，372 
soft core processors and ( 软 核 处 理 器 ) ，359 
virtual memory and ( 虚拟 内 存 ) ，136 
in von Neumann architecture (在 汉 . 诺 依 曼 体 系 
结构 中 ) ，19 


137-140 


Rate monotonic scheduling ( 频 度 单调 调度 ) ，272 
RAW ， 见 Read-after write 
RE, 见 Reverse engineering 
Read ( 读 取 ) ，400-401 
Read-after write (RAW) ( 先 读 后 写 ) ，181，191 ， 
196 
Read- only memory ( ROM) (只 读 存 储 器 ) ，80， 
见 Electrically erasable PROM; Erasable pro- 
grammable ROM 
for embedded systems CPUs ( 艇 入 式 系 统 CPU ) ， 
298，307-313 ，308f 
Real-time clock module (RTC) (实时 时 钟 模 块 ) ， 
297 
Real-time issues (实时 性 问题 ) ，269-273 
packetization for (封包 化 ) ，444 
Real-time operating system (RTOS) (实时 操作 系 
统 ) ，270 
for embedded systems CPUs ( 藤 人 式 系 统 CPU ) ， 
367 
interrupts and (中 断 ) ，279 
memory for (内 存 ) ，323-324 
SWI and (软件 中 断 ) ，281 
temporal scope and (时 间 范 围 参数 ) ，271 
Reassembly (重组 ) ，443 
Receivers ，for networking (接收 机 ， 对 于 网 络 层 ) ， 
445-446 
Redirections，in UNIX ( 重 定 向 ) ，385-387 
Reduced Function Device ( RFD) ( 精 减 功能 设 
备 ) ，489 
Reduced instruction set computer ( RISC) (精简 指 
令 集 计 算 机 ) ，21，71，100 
addressing modes and ( 寻 址 模式 ) ，98 
CPI for (每 条 指令 周期 数 )，114 
DMA and (直接 存储 器 存 取 ) ，258 
embedded systems coprocessors and (先入 式 系统 
协 处 理 器 ) ，165 ，166 
instruction sets for (指令 集 ) ，193 
interrupts and (中 断 ) ，275 
IPC for (每 周期 指令 数 ) ，198-199 
soft core processors and，( 软 核 处 理 器 ) ，360 
speedups for (加 速 比 ) ，174 
VLIW for，( 超 长 指令 集 架 构 ) 246 ，247f，249 
Reed- Solomon encoding ( RS) ( Reed- Sokomon 编 
码 )，337，338 
Reentrant code ，for interrupts (可 重 和 人 代码， 对 于 
中 断 ) ，281 
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Refresh process，for DRAM (DRAM 刷新 的 过 程 ) ， 
315 
Registers (寄存 器 ) ，22，22n2，71n1，72，73， 
73n2. 另 见 specific types 
ADSP2181 and, 99 
of ALU (算术 逻辑 单元 ) ，21，298 
ARM and, 99, 124 
branch prediction and (分 支 预测 器 ) ，214 
C and (编程 语言 ) ，327 
controlunit and (控制 单元 )，74-75,，74f, 77 
DAGs and (数据 地 址 生成 器 ) ，204-205 
for data storage (数据 存储 ) ，108 
index in (索引 ) ，109 
instruction sets and (指令 集 ) ，193 
MMX (多 媒体 扩展 ) ，162，163f，164 
PC and，124nl for programs，375-376 (程序 ) 
SSE and, 164 
for subtraction, 46 
ReiserFS, 424 
Relative address (相对 地 址 ) ，93 
Relative branching (相对 地 址 分 支 ) ，187-188 
Reliability，of OS (可 靠 性 )，393-394 
Renice, 416 
Reorder buffer ( ROB) ( 重 排序 缓冲 器 ) ，294 
Repeated addition ，or multiplication (加 法 迭代 ， 乘 
法 ) 38 
Repeated subtraction ，for division (减法 迭代 ， 除 
法 ) ，44-46 
Replacement algorithms, for cache memory ( cache 
替换 算法 ) ，150-154 
Request for comment (RFC) (一 系列 以 编号 排 定 
的 文件 ) ，463-464 
Reservation stations (RS) (保留 站 )，240- 241， 
245t 
Reservation tables (预约 表 ) ，175，179，183 ，190t 
for Tomasulo " s algorithm (Tomasulo 算法 ) ，242， 
243f，245f 
trace tables and (跟踪 表 ) ，211 ，211n7 
Reset circuitry，for embedded systems CPUs (复位 
电路 ， 用 于 嵌入 式 系统 ) ，295 
Reset supervisors (复位 监测 器 ) ，341-343 ，342f， 
342n5 ，343f 
Resource manager (资源 管理 器 ) ，396 
Retirement algorithms (退回 算法 ) ，139-140 
Reverse engineering (RE) 
activemitigation of ( 主动 防范 ) ，357-358 





BOM for (材料 清单 ) ，347-348 
defined (和 定义) ，344n7 
of electrical conductivity (电导 率 ) ，349-350 
for embedded systems CPUs (内 入 式 系统 ) ，343- 
358, 345f, 346f, 349t, 356t, 358t 
functionality for (功能 ) ，346 
physical structure analysis for (物理 结构 分 析 ) ， 
346-347 
prevention of (防止 ) ，353-358 
process of ( 过程 ) ，344-348 
of programs (程序 ) ，351-353 
prevention of (防止 )，355，356t 
system architecture analysis for (系统 结构 分 析 ) ， 
348 
Reverse Polish notation ( RPN ) ( 逆 波 兰 表 示 法 )， 
100-102 
RFC， 见 Request for comment 
RFD， 见 Reduced Function Device 
Rings，for parallel machines ( 环 ， 用 于 并 行 机 
如 ,503 
Ripple-carry 〈 行 波 进 位 加 法 器 ) 
adder (加 法 器 ) ，33 
IEEE754 normalized mode and (IEEE754 标准 化 
模式 ) ，56 
RISC， 见 Reduced instruction set computer 
ROB， 见 Reorder buffer 
Robertson " s method (Robertson 方法 ) ，42-44 
Rockwell 6502 ，12 
ROM， 见 Read-only memory 
Root directory ( 根 目 录 ) ，428-430，430f 
Round robin ( 轮 询 调度 ) 
cache memory (cache 存储 器 ) ，152 
scheduling (调度 ) ，272 
Rounding，of IEEE754 (四 含 五 人 ，IEEE754 ) ， 
63-64 
Routers and routing (路 由 器 和 路 由 ) ，442 
for Ethernet (以 太 网 ) ，472 
IP (互联 网 协议 地 址 ) ，477 
Row address strobe (nRAS) ( 行 地 址 选 通 ) ，318 ， 
318f 
RPN ， 见 Reverse Polish notation 
RS， 见 Reed-Solomon encoding; Reservation stations 
RS232 ，267 
RTC， 见 Real-time clock module 
RTOS， 见 Real-time operating system 
Run time (运行 时 ) ，189-192，191f，192f 
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Safety，of OS (安全 性 ) ，394 
Samsung (三 星 ) 
Galaxy smartphones (Galaxy 智能 手机 ) ，15f 
S3C2410，291-292 ，298 
JTAG for (调试 接口 ) ，335 
soft core processors and ( 软 核 处 理 器 ) ，359 
SAN， 见 Storage area network 
SATA， 见 Serial ATA 
Scheduling (调度 ) 
low-level scheduler (底层 调度 程序 ) ，403 
OS and (操作 系统 ) ，413-417 
of tasks (任务 ) ，270-272，271f 
Scoreboarding，for WAW (WAW 记分 牌 ) ，196 
SD， 见 Secure digital; Signed digit 
SDR， 见 Software- defined radio 
SDRAM. 见 Synchronous dynamic RAM 
Secure digital (SD，xD) (安全 数字 ) ，268 ，312 
Secure socket layer (SSL) (安全 套 接 层 ) ，383 
sed (GNU 串 行 编辑 器 基于 正则 表达 式 修改 数据 流 
的 指令 ) ，387 
Segmentation (片段 ) 
of MMU (内 存 管理 单元 ) ，140 
packetization and (分 包 化 ) ，443 
Segmentation fault error (“Segementation fault” 错误 
提示 ) ，143 
Self-timed control ( 自 定时 控制 )，76，77-78 
Semaphores ( 函数 名 ) ，270，413 
Separate the condition- setting instruction (SUBS ) 
(条 件 设置 指令 ) ，184，186，189 
Serial ATA (SATA) ( 串 行 ATA) ，262，263 ，329 
Serial buses ( 串 行 总 线 ) ，18 
Serial flash ( 串 行 闪存 ) ，309 ，310f 
Serial Peripheral Interconnect (SPI) ( 串 行 外 设 接 
口 太 ，260 
Serial ports ( 串口) 
bytes and ( 字 节 ) ，107 
data output register of (输出 数据 寄存 器 ) ，328 
NOP for ( 空 操作 ) ，328 
UART (通用 异步 收发 器 ) ，192 
Server farms (服务 器 堆 )，228 
Set- associative cache (组 相 联 cache) ，148-149 
SEUs， 见 Single event upsets 
Shadow registers (影子 寄存 器 ) ，207-208 
Shift-add method ，for multiplication ( 移 位 加 法 方 


法 ， 用 于 乘法 ) ，42 
Shift register ( 移 位 器 ) ，214 
Shoubu, 505 
ST， 见 System International 
Sign extension (符号 扩展 ) ，30-31 
Sign magnitude ( 原 伺 ) ，26 
Signed digit (SD) (有 符号 数 ) ，$10-513 ，S11f{，512f 
Silicon ( 硅 ) 
for asynchronous processors ( 异步 处 理 器 ) ，507 
for memory (内 存 ) ，307 
SIMD， 见 Single instruction stream, multiple data 
Simple mail transfer protocol (SMTP) (简单 邮件 传 
输 协 议 ) ，465 
Simplification (简化 ) ，76 
Sinclair, 115 
ZX Spectrum, 285 
Sinclair，Clive，( 人 名 ) 83 
Single-bit architectures ( 单 比 特 结构 ) ，494 
Single-bus architectures ( 单 总 线 结构 )，130f，131- 
132.,,. 132f 
Single-cycle execution ( 单 周 期 执行 )，193 
Single event upsets (SEUs) ( 单 粒 子 翻转 ) ，336 
multiple- valued logic and (多 值 逻 辑 ) 509 
Single instruction stream, multiple data (SIMD ) 
( 单 指令 流 多 数据 流 ) ，18 ，19f，227 
hardware acceleration and (硬件 加 速 ) ，201 
MMX and (多 媒体 扩展 指令 集 ) ，228 
NEON, 166 
on VIA Isaiah ，294 
Single instruction stream，single data (SISD) ( 单 指 
令 流 ， 单 个 数据 ) ，18 ，19f，227 
to MIMD (多 指令 流 多 数据 流 ) 230-232，231f 
Single precision ( 单 精度 )，50 
Single T-bit branch prediction (单位 预测 )，211-212 
Single-user systems ( 单 用 户 系 统 )，394 
SISD. 见 Single instruction stream, single data 
Smartphones (智能 手机 ) ，15f 
with Android ，393 
ARM in, 15-16 
bit width of (位 宽 ) ，113-114 
mobile multiprocessing by (移动 多 处 理 ) ，238 
SMP， 见 Symmetrical multi- processing 
SMTP， 见 Simple mail transfer protocol 
SoC， 见 System on chip 
Soft core processors ( 软 核 处 理 器 ) ，358-363 
availability of ( 可 用 性 ) ，361 
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Soft deadlines ( 软 时 限 ) ，270 
Soft real-time system ( 软 实时 系统 ) ，270 
SoftBank 〈 软 银 ) ，5 
Software， 见 Programs 
Software- defined radio (SDR) (软件 定义 无 线 电 )， 
323 
Software interrupt (SWI) (软件 中 断 ) ，280，281-282 
Solid-state dise (SSD) (固态 硬盘 ) 
booting from (启动 ) ，405-406 ，408-409 
for data storage (数据 存储 ) ，107 
for storage (存储 ) ，417-420 
Sony 
Cell processor ( Cell 处 理 需 ) ，234 
Playstation (游戏 机 名 称 ) ，234 
SP， 见 Stack pointer 
SPARC 
ERC32 and (处理 器 名 称 ) ，255 
RISC and (精简 指令 集 计 算 机 ) ，82 
Spatial locality ，for cache memory (cache 空间 局 部 
性 ) ，149-150 
SPE， 见 Synergistic processing elements 
SPEC， 见 Standard Performance Evaluation Corpora- 
tion 
SPECfp，116 
SPECint, 116 
Speculative execution (预测 执行 )，183，186-187， 
210 
Speech recognition (语义 识别 ) ，237 
SPI， 见 Serial Peripheral Interconnect 
Spill code 〈 测 露 代 码 ) ，109 
for embedded systems CPUs ( 髓 入 式 系统 CPU ) ， 
328 
SQUID， 见 Superconducting quantum interface device 
SR， 见 Status register 
SRAM， 见 Static RAM 
SSD， 见 Solid-state drive 
SSE， 见 Streaming SIMD extensions 
SSEM，5 
SSL， 见 Secure socket layer 
Stack pointer (SP) (堆栈 指针 ) ，375 
Stacks (堆栈 ) ，375-376 
processing of ( 处 理 ) ，100-102，102f 
addressing modes and ( 寻 址 模式 ) ，100-101 
Stall time (停滞 时 间 ) ，139 
Standard error (标准 错误 ) ，385 
Standard input (标准 输入 ) ，385 


Standard interfaces (标准 接口 )，260-268 
Standard logic gates (标准 逻辑 门 ) ，523-524 
Standard output (标准 输出 )，385 
Standard Performance Evaluation 
Corporation ( SPEC) (标准 性 能 评定 组 织 )， 
116 
Star network ( 星 状 网 络 ) ，441-443 
Static RAM (SRAM)，,，( 静 态 RAM) ，80，117 
DRAM and (动态 RAM)，316-317 
DSP and (数字 信号 处 理 ) 128 
for embedded systems CPUs (嵌入 式 系 统 CPU ) ， 
314-315, 315f 
RE of (逆向 工程 ) ，346 
prevention of ( 预防 ) ，356 
Status register (SR) (状态 寄存 器 ) ，499 
STM， 见 Store multiple registers 
Storage (存储 ) 
of data (数据 ) ，107- 外 8 
delay lines for (延迟 线 ) ，307 
flash memory for (闪存 )，418 
OS and (操作 系统 ) ，400-401，417-433 ，419f 
for programs (程序 ) ，70-71 
RE for (逆向 工程 ) ，350 
Storage area network (SAN) (存储 区 域 网 络 ) ，490 
Store multiple registers (STM) (批量 存储 ) ，193 
Streaming SIMD extensions (SSE) (SIMD 流 指 令 扩 
展 ) ，164-165 
coprocessors for ( 协 处 理 需 ) ，158-159 
embedded systems coprocessors and ( 般 入 式 系统 
协 处 理 需 ) ，165 
FPU and ( 浮 点 运算 单元 ) ，159 
instruction sets and (指令 集 ) ，87 
SUB (减法 ) 
ARM and, 85 
control unit and (控制 单元 ) ，77，79 
interrupts and ( 中断) ，276 
Subnormal numbers (规格 化 数字 ) ，51，53-54 
SUBS， 见 Separate the condition- setting Instruction 
Subtraction (减法 ) ，34-37 
OR for (或 运算 ) ，35，35f 
ALU for (算术 逻辑 单元 ) ，21 
of IEEE754, 59-62 
SUN Microsystems 
PicoJava by, 174 
speedups by (加 速 比 ) ，174 
Sunway TaihuLight (神威 太湖 之 光 ) ，504 





Superblocks (超级 代码 段 ) ，226 
of FS (文件 系统 ) ，424-425 ，426f 
Supercomputers (超级 计算 机 ) ，12 
Superconducting quantum interface device (SQUID ) 
( 超 导 量子 干涉 设备 ) ，358 
SuperIO chip (SuperIO 芯片 )，329，330n3 
Superscalar architectures (超标 量 体 系 结构 ) 
for CPUs, 194-198, 194f, 195t, 198f 
IPC for (每 周期 指令 数 )，199 
multiple-issue (多 发 送 ) 197 
performance of (性 能 ) ，197-198 
VLIW and, 249, 250 
Supervisor (监控 程序 ) ，273 
SWI and，281 
SWI， 见 Software interrupt 
Switches (交换 机 ) ，473 
Symbol errors (符号 错误 ) ，446 
Symmetrical multi- processing (SMP) (对 称 多 处 
理 ) ，234 
Synchronization ，of OS (系统 同步 ) ，413 
Synchronous dynamic RAM (SDRAM) (动态 同步 
RAM) ，80，321 
booting and (引导 ) ，325 
DSP and，128 
for embedded systems CPUs ( 磐 人 式 系 统 CPU) ， 
298 
interrupts and (中 断 ) ，278 
RE of (逆向 工程 ) ，346 
of Samsung S3C2410 ，292 
Synergistic processing elements (SPE) (协同 处 理 单 
元 ) ，234-235 ，236f 
System/360, of IBM, 8-9, 9f 
System control interfaces (系统 控制 接口 ) ，260 
System data buses (系统 数据 总 线 )，260- 267， 
264t, 266f 
System on chip (SoC) (片上 系统 )，292- 293， 
292nl 
clocks for (时 钟 ) ，298-306 ，299t，300f 
required functionality for ( 所 需 功 能 ) ，295-298 
reset supervisors for ( 重 置 监视 顺 ) ，342 
到 


TAG, 146, 149 

Take/do not take bit (TDTB) (执行 /不 执行 指示 
位 ) ，210，299t，210n6 

Target ，for cross-compiling (交叉 编译 的 目标 ) ，380 
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Task parallelism (任务 并 行 )，228 
Task- switching (任务 切换 ) ，397-398 ，397nl 
Tasks (任务 ) 
scheduling of (调度 ) ，270-272，271f 
temporal scope for (时 间 范 围 参数 ) ，270-272，271f 
TB， 见 Translation buffer 
TCK (测试 时 钟 )，334 
TCP， 见 Transmission control protocol 
TCP/IP, 457, 464-469 
encapsulation for (封装 ) ，465-469 ，466f-468f 
TDI，( 测 试 数据 输入 ) ，334 
TDTB ， 见 Take/do not take bit 
Temporal locality ，for cache memory (cache 时 间 局 
部 性 ) ，149-150 
Temporal scope，for tasks (时 间 范 围 参数 )，270- 
272 271f 
Texas Instruments (德州 仪器 ) 
DSP code of (数字 信号 处 理 代码 ) ，81 
MSP430 
L/O on, 295-297 
memory map for (内 存 映 射 ) ，326-327 
TMS320，84，202 
interrupts and (中 断 ) ，276 
VLIW of, 248 
TGB, 见 Time-slotted global back plane 
Throughput ,175 
VLIW and, 248 
Thumb, 88 
ARM and, 96 
Time-slotted global back plane (TGB) (时 际 全 局 背 
板 ) ，499-500 
Time-to-live (TTL) (生存 时 间 ) ，476-477 
TMR， 见 Triple module redundancy 
Tomasulo”s algorithm (Tomasulo 算法 ) ，239- 246 ， 
241f，243t，244f，245St 
Toshiba (东芝 ) ，234 
Trace tables (跟踪 表 ) ，211，211n7 
Transistors (晶体管 ) 
Bell Labs and (贝尔 实验 室 ) ，4-5 
Intel and (英特尔 ) ，12 
Moore’ s law and, lnl 
in second- generation computers (在 第 二 代 计 算 机 
中 ) ,7 
on VIA Isaiah ，294 
Translation buffer (TB) (转换 缓冲 器 ) ，142 
Transmission control protocol (TCP) (传输 控制 协 
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议 )，485f， 见 TCP/IP 
DNS for (域名 服务 器 ) ，479 
port number for (端口 号 ) ，482-483 ，483f 
vs. UDP (与 UDP 对 比 ) ，484-485 
Transmitters ，for networking (网 络 发 送 端 ) ，445 
Transport layer (传输 层 ) ，465，466，482- 485 ， 
483f 
Trees，for parallel machines ( 树 结 构 ， 并 行 机 
只 )，508 
Triple- boot (三 重启 动 )，420-421 
Triple module redundancy (TMR) (三 重 模型 元 余 ) ， 
337,, 337f 
Tristate buffer (三 态 缓冲 区 ) 21, 75, 75n3, 77 
TIL， 见 Time-to-live 
TWI， 见 Two-wire interface 
Two-bit branch prediction 〈( 双 位 分 支 预测 器 ) ，212- 
214, 213f 
Two- wire interface (TWI), 260 
Two”s complement ( 补 码 ) ，27 
TX-0, 5 


U 


UART， 见 Universal asynchronous receiver/ transmitter 
UBIFS, 见 Unsorted block image FS 
uCLinux ，323 
uCOS, 393 
VM, 394 
UDP， 见 User datagram protocol 
Unicasting ( 单 播 ) ，478 
Unicode, 105 
Universal asynchronous receiver/transmitter ( UART) 
(通用 异步 收发 器 ) ，192，297 
Universal serial bus (USB) (通用 串 行 总 线 ) : 
backup system and (备用 系统 ) ，433 
peripheral device buses (外 围 设备 总 线 )，267- 
268 
UNIX ,383 
wireless technology and (无 线 技术 ) ，282 
Universal synchronous/ asynchronous receiver/transmitter 
(USART) (通用 同步 /异步 收发 器 ) ，297 
UNIX 
backup system of (备份 系统 ) ，433 
for cloud computing，( 云 计算 ) ，395 
CPU time for (CPU 时 间 ) ，397-398 
data flows in (数据 流 )，385-387，385f-387f 
embedded systems for (嵌入 式 操 作 系 统 ) ，395 





file handling in (文件 处 理 ) ，385-386 

FS of (文件 系统 ) ，429 

Internet and (网 络 ) ，462 

Linux and，392 

for multiuser systems (多 用 户 系 统 ) ，394 

parity memory for (内 存 奇 偶 校 验 ) ，336 

programming for (编程 ) ，372 

programs for (程序 ) ，383-388 

redirections in ( 重 定 向 )，385-387 

shell ，384-385 ，396 

utility software for (实用 软件 ) ，387-388 
Unsigned binary (无 符号 二 进 制 ) ，26 
Unsorted block image FS (UBIFS) (无 序 区 块 镜像 

文件 系统 ) ，424 
USART， 见 Universal 
synchronous/asynchronous 
receiver/ transmitter 
USB， 见 Universal serial bus 
User datagram protocol (UDP) (用 户 数 据 包 协议 )， 
448 ” 

DNS for (域名 系统 ) ，479 

port number for (端口 号 ) ，482-483 ，483f 

vs. TCP (与 TCP 相 比 ) ，484-485 
User interface， 见 Craphical user interface 

DCP for (双核 平台 ) ，232 

in third-generation computers (第 三 代 计 算 机 ) ，8 
Utility software，for UNIX (实用 软件 ) ，387-388 


V 


V (overflow) flag (V (溢出 ) 标志 )，134，182 
Vacuum tubes ( 真空管) ，$n2 ，6 
Variables ，in memory (变量 ， 位 于 内 存 中 ) ，108 
VAX machines (VAX 机 器 ) ，21 
VBR， 见 Volume boot record 
VDU， 见 Visual display unit 
Vector floating point (VFP)( 浮 点 向 量 )，166 
Vector parallelis (向 量 并 行 ) ，228 
Verification (验证 ) 
of embedded systems CPUs (先入 式 系统 CPU ) ， 
328-336 
for hardware software codesign (软件 、 硬 件 协同 
设计 ) ，365 
Very large-scale integration (VLSI) (超大 规模 集成 
电路 ) ,9 
Very long instruction word ( VLIW) ( 超 长 指令 字 )， 
246-250，247f，248f 
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IPC for (每 周期 指令 数 ) ，199 
VESA，262 ，263 
VFP， 见 Vector floating point 
VHSIC hardware description language (VHDL) ( 硬 
件 描述 语言 ) ，358 ，358n8 
soft core processors and ( 软 核 处 理 器 ) ，360 
VIA Isaiah (Nano) ，293-294，293f，298 
VIDC，93 
Video RAM (VRAM) (视频 RAM) ，321 
Virtual address (虚拟 地 址 )，21-22 
Virtual machine (VM) (虚拟 机 )，394，396-397 
Virtual memory (虚拟 内 存 ) 
cache memory and (cache 存储 器 ) ，146 
MMU and (内 存 管理 单元 ) ，136 
0S and (操作 系统 ) ，399-400 
in third- generation computers (第 三 代 计 算 机 ) ，8 
Virtualization technology 《可视化 技术 ) ，237 
Visual display unit (VDU) (虚拟 显示 单元 
(VDU) ) ，115 
VLIW ， 见 Very long instruction word 
VLSI， 见 Very large-scale integration 
VM， 见 Virtual machine 
Volatile memory ( 易 失 性 存储 ) ，405 ，417 
for embedded systems CPUs ( 构 和 人 式 系统 CPU ) ， 
327-328 
Volume boot record (VBR) ( 卷 引 导 记 录 ) ，421 
von Neumann architecture ( 冯 … 诺 依 曼 体系 结构 ) ， 
6, 19 
cache memory and (cache 存储 器 ) ，145 
VRAM， 见 Video RAM 
VxWorks, 393 
as layered 0S (分 层 操 作 系 统 ) ，402-403 
VM (虚拟 机 )，394 
W 
WAN， 见 Wide area network 
WAR， 见 Write-after-read 
Watchdog timers ( WDTs) (看 门 狗 定时 器 )， 
340-341 
Watchpoint (观察 点 ) ，171n7 
WAW， 见 Write-after-write 
WDTs， 见 Watchdog timers 
Wetware ( 湿 件 )，518-519 
Whetstone, 116 
Wide area network (WAN) (广域网 ) ，462，490 


WiFi, 467, 474, 487 
Wilkes，Maurice ( 人名) ，80 
WiMax， 见 Worldwide Interoperability for Microwave 
Access 
Windows， 见 Microsoft Windows 
Wireless (无 线 的 ) ，282-285 ，283f，486-489 
interfaces and (接口 ) ，284 
symbol errors in (符号 错误 ) ，446 
Worldwide Interoperability for Microwave Access 
(WiMax) (全 球 互通 微波 访问 )，437，487- 
488 
Write ( 写 入 ), 401 
Write-after-read (WAR) ( 先 写 后 读 )，181，191， 
196, 244 
Write-after-write (WAW) ( 写 后 写 )，181 
compilers and (编译 器 ) ，327 
scoreboarding for (记分 牌 ) ，196 
Write back ( 写 回 ) ，147 
Write deferred (延迟 写 ) ，147 
Write through ( 直 写 ) ，147 
Write-through with no write-allocate (WTNWA) ( 没 
有 写 分 配 的 直 写 ) ，147 
X 
xD ， 见 Secure digital 
Xilinx Microblaze ，366 
XIP， 见 Execute-in-place 
XOR， 见 Exclusive- OR gate 
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Yet another flash filing system (YAFFS) ( 男 一 个 闪 

存 归档 系统 )，424 
区 

Z (zero) flag，for pipelines (流水 线 零 标 志 位 )， 
182 ，183 

Z shell (zsh), 384 

Zero, IEEE754 (二 进 制 浮 点 数 算术 标准 )， 
54, 55 

Zero-overhead loops (ZOL) ( 零 开 销 循环 )，201- 
206 ，203f 

ZigBee, 488-489 

ZOL， 见 Zero-overhead loops 

zsh， 见 Z shell 

Zuse，Konrad (人 名 ), 4 


